MyException - 我的异常网
当前位置:我的异常网» J2SE » htmlparser使用上的一些小疑问,该怎么处理

htmlparser使用上的一些小疑问,该怎么处理

www.MyException.Cn  网友分享于:2013-01-29  浏览:13次
htmlparser使用上的一些小疑问
还记得一年前对网页抓取感兴趣,自己写正则抓取什么网页链接,图片链接之类的,都是用的纯java se的东西,当年有个叫huner的兄弟就推荐我用htmlparser来搞,可惜自己水平不够,完全不知道咋用,一年后水平略有上升,终于能使用的比较顺手了,学习的历程啊。。。

使用中有几个小问题,不知道htmlparser本身有没有提供一些解决办法?话说API这东西不好搞啊,能读懂,但就是找不到自己需要的解决办法在哪,真是愁啊。。。特此找各位高人询问下解决思路

1、htmlparser没有对提取到的节点做排重,不知道有没有方法可以实现?比如我添加了2个<a href=www.csdn.net>csdn</a>就会都抓取下来,使用的代码
Java code

Parser parser = Parser.createParser("http://www.xxx.com");
NodeFilter filterA = new TagNameFilter("a");
NodeList nodes = parser.extractAllNodesThatMatch(filterA);
for (int i = 0; i < nodes.size(); i++) 
{
        Node textnode = (Node) nodes.elementAt(i);
System.out.println("toHtml:"+textnode.toHtml());

                }


本来按照思路应该是在extractAllNodesThatMatch这个方法里添加一个true之类的,但是也没找到,不知道有没有其他的方法排重,当然我也不是没想过,把提取出来的放到hashset在遍历拿出来,不过感觉有点麻烦

2、比较郁闷的StringFilter一直都以为是能过滤我抓取下来的所有node节点里包含的字符串,结果试了半天终于发现原来是过滤节点中间的内容的,比如:<a href="www.baidu.com">百度</a>,如果这么写
NodeFilter filterB = new StringFilter("www.baidu.com");肯定是抓取不到的,只能写
NodeFilter filterB = new StringFilter("百度");
有没有方法能过滤节点属性呢?我现在只能使用if(oldSrcPath.contains("baidu"))这么过滤,不知道有没有其他的方法

以上2个问题如果都能用htmlparser本身的方法解决请各位不吝指教,最好能说说咋在APi中找到这些方法的?经验?技巧?

------解决方案--------------------
jsoup 易用。
类似css/jquery的 selector非常方便。而且实现了 Iterable接口,遍历也方便。

文章评论

亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
程序员必看的十大电影
程序员必看的十大电影
10个调试和排错的小建议
10个调试和排错的小建议
我的丈夫是个程序员
我的丈夫是个程序员
总结2014中国互联网十大段子
总结2014中国互联网十大段子
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
编程语言是女人
编程语言是女人
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
程序员应该关注的一些事儿
程序员应该关注的一些事儿
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
Java程序员必看电影
Java程序员必看电影
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
老程序员的下场
老程序员的下场
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
我是如何打败拖延症的
我是如何打败拖延症的
如何成为一名黑客
如何成为一名黑客
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
旅行,写作,编程
旅行,写作,编程
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
程序员都该阅读的书
程序员都该阅读的书
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
漫画:程序员的工作
漫画:程序员的工作
为什么程序员都是夜猫子
为什么程序员都是夜猫子
那些争议最大的编程观点
那些争议最大的编程观点
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
鲜为人知的编程真相
鲜为人知的编程真相
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
一个程序员的时间管理
一个程序员的时间管理
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有