2010-2-2 01:02| 发布者: walkerxk| 查看: 1584| 评论: 0
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
0.6 版本值得关注的改进内容有:
* 改进了对 HTML 的 Mime-type 检测 * Tika 使用一个附加的 OSGi 模块来引入所有解析库 * Apache POI 升级到 3.6 版本,该版本可显著的减小 ooxml jar包的大小* 改进了对HTML文档的编码处理,支持HTML文档中的<meta>元素编码定义 * 改进对Excel文档中的计算公式支持 * 默认使用 UTF-8 输出信息 * 增加对 Flash 视频 (video/x-flv) 的解析器 * 增加对Excel的日期和数值单元格式化的支持
下载地址: http://lucene.apache.org/tika/download.html
: 看着牙疼!
关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号 )