设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

Web爬虫Apache Nutch 1.16发布

2019-10-18 11:03| 发布者: joejoe0332| 查看: 291| 评论: 0|原作者: oschina|来自: oschina

摘要: Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

此版本包含 100 多个错误修复和改进,主要更新内容如下:

新特性

  • [NUTCH-2676] - 更新至最新的 selenium,并添加代码以通过远程 Web 驱动程序使用 chrome 和 firefox 无头模式

Bug 修复

  • [NUTCH-1063] - OutlinkExtractor 测试会生成异常,但不会失败
  • [NUTCH-1842] - crawl.gen.delay 在 nutch-default.xml 中具有错误的默认值,或者被错误地解析
  • [NUTCH-2279] - 使用 Hadoop MR 输出压缩时 LinkRank 失败
  • [NUTCH-2381] - 在某些情况下,类 TextProfileSignature 为同一文本“配置文件”页面提供不同的签名
  • [NUTCH-2387] - Nutch 不应使用 “noindex” 元索引文件
  • [NUTCH-2457] - Tika 可能无法正确解析嵌入的文档
  • [NUTCH-2475] - If 和 else-if 分支的条件相同
  • [NUTCH-2482] - index-geoip 不向文档字段添加空值
  • [NUTCH-2585] - TrieStringMatcher 中的 NPE
  • [NUTCH-2598] - URLNormalizerChecker 在输入中的无效 URL 上失败
  • ……

详情见更新说明


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部