开源且可扩展的web爬虫项目:Heritrix

来源: LUPA开源社区
发布时间: 2007-08-13 04:52 作者: webmaster 来源: Java开源大全 版权申明

字体: | 上一篇 下一篇 | 打印


文章来源于http://www.lupaworld.com
  Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

  
http://crawler.archive.org/
文章来源于http://www.lupaworld.com

声明:LUPA开源社区刊登此文只为传递信息,并不表示赞同或者反对。

查看全部评论(0)我来说两句 直接向LUPA提出您的宝贵建议

-5 -3 -1 - +1 +3 +5