设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

jpaser 0.0.18发布,Python网页正文抽取工具

2017-5-25 22:29| 发布者: joejoe0332| 查看: 620| 评论: 0|原作者: oschina|来自: oschina

摘要: jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。0.0.18 版改进:1) 修复br标签问题;2) 提高了title提取的准确性;3) 图片地址绝对路径 ...

jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。

0.0.18 版改进:

1) 修复br标签问题;
2) 提高了title提取的准确性;
3) 图片地址绝对路径处理bug修复;
4) 抽取结果中的杂质打压;
5) 提高正文区域识别准确率;


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部