FirteX是国内第一个开源的全文索引和检索平台,1.0.2 beta版在8月15发布,目前已更新至1.0.2 beta2版,新版本FirteX支持Linux和Windows平台,FirteX的网站
http://www.firtex.org也已全面改版,增加了FirteX 论坛,API 文档,编译安装帮助等资料。
FirteX以GPL开放源码授权协议的形式发布,这意味着在遵循GPL协议的基础上可以免费使用FirteX,也可以参与到FirteX的开发中来,(参与开发可以登录
http://www.sourceforge.net/projects/firtex 或和我联系)。
FirteX官方网站:
http://www.firtex.org
FirteX在sourceforge.net上的工程页面:
http://www.sourceforge.net/projects/firtex
下面是FirteX的简要介绍,更多信息请参见FirteX官方网站。
============================================================================================================
目标和动机
FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台。 FirteX 的主要目标是研究文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (Index Maintenance) ,短语查询 (Phrase Query),Top-k 查询的快速处理 (Top-k Query Process) 以及各种检索模型( IR Model )等。高性能和灵活的架构也使 FirteX 可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索, Blog 搜索,学术搜索以及大规模搜索引擎等领域中。
实验平台
FirteX 支持各种检索效果和检索效率的实验。在效果方面,可以实现各种检索模型、查询反馈以及面向信息检索的中文分词等实验;在效率方面,可以研究文本索引的快速构建算法,动态文档集的索引建立和更新策略,查询快速处理算法以及查询 Cache 方案等。
强大功能
FirteX 支持纯文本,网页, PDF,Microsoft Office 等文件格式,支持中文(GB2312 和 GBK) 和英文,灵活的架构也可以方便地扩展支持其他语言和编码;检索语法丰富,支持多字段检索,日期范围检索,检索结果自定义排序等;系统也可以通过 COM 插件无限扩展。
高性能
FirteX 设计成可以处理大规模数据,具有较高的性能,在单台 Pentium 4 2.8G 2GRAM 的机器上用1G内存超过 200Mb 每分钟的纯文本索引速度,在近 100G 的网页上搜索,仅用十几M内存能在数毫秒内返回结果。
开放源码
FirteX采用C++开发,以GPL(General Public License)开放源码授权协议的形式发布,这意味着您可以在遵循GPL协议的基础上免费使用FirteX,也可以参与到FirteX的开发中来。如果需要在商业软件中使用请联系我们以获得另一份商业使用授权协议。
可以访问在SourceForge.net上的工程页面(
http://www.sourceforge.net/projects/firtex) 参与开发或下载使用。
(by 郭瑞杰 ruijieguo<at>software.ict.ac.cn,<at>替换成@)
============================================================================================================