
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox
并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
0.6 版本值得关注的改进内容有:
* 改进了对 HTML 的 Mime-type 检测 * Tika 使用一个附加的 OSGi 模块来引入所有解析库
* Apache POI 升级到 3.6 版本,该版本可显著的减小 ooxml jar包的大小 *
改进了对HTML文档的编码处理,支持HTML文档中的<meta>元素编码定义 * 改进对Excel文档中的计算公式支持
* 默认使用 UTF-8 输出信息 * 增加对 Flash 视频 (video/x-flv) 的解析器 *
增加对Excel的日期和数值单元格式化的支持
下载地址: http://lucene.apache.org/tika/download.html
|