一个Java Web搜索程序类似网页下载之类的“爬虫” 不指定

Heck post in 编程杂谈 2010/10/25 20:02 评论(0) 阅读(1281) | |
        其实这是一个web搜索的基本程序,从命令行输入搜索条件,起始的URL、处理url的最大数、要搜索的字符串,它就会逐个对Internet上的URL进行实时搜索,查找并输出匹配搜索条件的页面。 这个程序的原型来自《java编程艺术》,为了更好的分析,Heck去掉了其中的GUI部分,并稍作修改以适用jdk1.5。以这个程序为基础,可以写出在互联网上搜索诸如图像、邮件、网页下载之类的“爬虫”。

先请看程序运行的过程:

D:\java>javac  SearchCrawler.java

D:\java>java   SearchCrawler http://127.0.0.1:8080/webhome/index.jsp 20 java

Start searching...
result:
searchString=java
http://127.0.0.1:8080/webhome/index.jsp
http://127.0.0.1:8080/webhome/reply.jsp
http://127.0.0.1:8080/webhome/learn.jsp
http://127.0.0.1:8080/webhome/download.jsp
http://127.0.0.1:8080/webhome/article.jsp
http://127.0.0.1:8080/webhome/HeckGUIOverview.htm
http://127.0.0.1:8080/webhome/myexample/Proxooldoc/index.html
http://127.0.0.1:8080/webhome/view.jsp?id=301
http://127.0.0.1:8080/webhome/view.jsp?id=297
http://127.0.0.1:8080/webhome/view.jsp?id=291
http://127.0.0.1:8080/webhome/view.jsp?id=286
http://127.0.0.1:8080/webhome/view.jsp?id=285
http://127.0.0.1:8080/webhome/view.jsp?id=284
http://127.0.0.1:8080/webhome/view.jsp?id=276
http://127.0.0.1:8080/webhome/view.jsp?id=272  


又如:
D:\java>java    SearchCrawler http://www.sina.com  20 java
Start searching...
result:
searchString=java
http://sina.com
http://redirect.sina.com/WWW/sinaCN/www.sina.com.cn class=a2
http://redirect.sina.com/WWW/sinaCN/www.sina.com.cn class=a8
http://redirect.sina.com/WWW/sinaHK/www.sina.com.hk class=a2
http://redirect.sina.com/WWW/sinaTW/www.sina.com.tw class=a8
http://redirect.sina.com/WWW/sinaUS/home.sina.com class=a8
http://redirect.sina.com/WWW/smsCN/sms.sina.com.cn/ class=a2
http://redirect.sina.com/WWW/smsCN/sms.sina.com.cn/ class=a3
http://redirect.sina.com/WWW/sinaNet/www.sina.net/ class=a3

D:\java>
下面是这个程序的源码



来源:Heck's Blog
地址:http://www.hecks.tk/java-web-search-spider-html/
转载时须以链接形式注明作者和原始出处及本声明,否则将追究法律责任,谢谢配合!