发新话题
打印

[求助] 求助解析ajax

求助解析ajax

我现在要做一个基于sohu博客的社区发现系统,解析网页用的是htmlparser。开始时我直接是解析博客里面的<a href=></a>标签,例如:Parser p=new Parser("http://shihb.blog.sohu.com/");NodeFilterfilter=new TagNameFilter("a");NodeListnodelist=p.parser(filter);这样<a></a>标签里面的链接就能被解析出来(包括很多没用的链接)。但后来发现,就像这个博客:[url=http://shihb.blog.sohu.com/%EF%BC%8C%E9%87%8C%E9%9D%A2%E5%B7%A6%E4%B8%8B%E8%A7%92%E7%9A%84%E5%A5%BD%E5%8F%8B%E9%82%A3%E9%83%A8%E5%88%86%E7%9A%84%E5%8D%9A%E5%AE%A2%E9%93%BE%E6%8E%A5%E6%98%AF%E4%B8%8D%E5%9C%A8http://shihb.blog.sohu.com/%E8%B ... D%E6%96%B9%E5%BC%8F]http://shihb.blog.sohu.com/,里面左下角的好友那部分的博客链接是不在http://shihb.blog.sohu.com/这个页面的源码上的,好像是通过ajax或者javascript之类的显示出来的,如图。这种方式[/url]显示的链接怎样去解析??不局限于htmlparser,大侠可以推荐一个好的框架。


1 附图: 未命名.bmp (原始图大小 508 KB,点击看大图)

TOP

不懂得说  我一般是用正则表达式匹配
QQ:290578157 ~~~正在找工作中(计算机方面),兄弟姐妹们有机会的可以介绍一下。人在北京,有事您说话~~~~!

TOP

最好单独做个feed比较好
单纯从html获取
基本上
没戏
你根本很难掌控当前html里的js是通过什么参数从什么地方得到什么形式的结果
这还没涉及到n多ajax框架对生成后的js进行加密和解密操作.

搜索引擎设计之正文提取的概念
把没用的扔掉
并不是所有显示的信息都是有用的

[ 本帖最后由 蓝月鸟 于 2008-5-21 11:35 编辑 ]

TOP

发新话题