Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。
http://crawler.archive.org/
声明:LUPA开源社区刊登此文只为传递信息,并不表示赞同或者反对。
专题代码推荐
资讯合作
开源且可扩展的web爬虫项目:Heritrix发布时间: 2007-08-13 16:52 作者: webmaster 来源: Java开源大全 版权申明Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 http://crawler.archive.org/ 声明:LUPA开源社区刊登此文只为传递信息,并不表示赞同或者反对。
查看全部评论(0)我来说两句 直接向LUPA提出您的宝贵建议 |