设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

内容抽取工具包:Apache Tika 0.6 发布

2010-2-2 01:02| 发布者: walkerxk| 查看: 1584| 评论: 0


Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

0.6 版本值得关注的改进内容有:

* 改进了对 HTML 的 Mime-type 检测
* Tika 使用一个附加的 OSGi 模块来引入所有解析库
* Apache POI 升级到 3.6 版本,该版本可显著的减小 ooxml jar包的大小
* 改进了对HTML文档的编码处理,支持HTML文档中的<meta>元素编码定义
* 改进对Excel文档中的计算公式支持
* 默认使用 UTF-8 输出信息
* 增加对 Flash 视频 (video/x-flv) 的解析器
* 增加对Excel的日期和数值单元格式化的支持

下载地址: http://lucene.apache.org/tika/download.html



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部