我现在要做一个基于sohu博客的社区发现系统,解析网页用的是htmlparser。开始时我直接是解析博客里面的<a href=></a>标签,例如:Parser p=new Parser("
http://shihb.blog.sohu.com/");NodeFilterfilter=new TagNameFilter("a");NodeListnodelist=p.parser(filter);这样<a></a>标签里面的链接就能被解析出来(包括很多没用的链接)。但后来发现,就像这个博客:[url=http://shihb.blog.sohu.com/%EF%BC%8C%E9%87%8C%E9%9D%A2%E5%B7%A6%E4%B8%8B%E8%A7%92%E7%9A%84%E5%A5%BD%E5%8F%8B%E9%82%A3%E9%83%A8%E5%88%86%E7%9A%84%E5%8D%9A%E5%AE%A2%E9%93%BE%E6%8E%A5%E6%98%AF%E4%B8%8D%E5%9C%A8
http://shihb.blog.sohu.com/%E8%B ... D%E6%96%B9%E5%BC%8F]http://shihb.blog.sohu.com/,里面左下角的好友那部分的博客链接是不在
http://shihb.blog.sohu.com/这个页面的源码上的,好像是通过ajax或者javascript之类的显示出来的,如图。这种方式[/url]显示的链接怎样去解析??不局限于htmlparser,大侠可以推荐一个好的框架。
1 附图: 未命名.bmp (原始图大小 508 KB,点击看大图)
