jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.9.2更新内容: 1. 配置文件中词库多目录加载, 多个目录使用';'隔开. 例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2 2. 修复中文分数识别可能的一种错误组合的bug. 例如: 三二分之,现在可以很好的处理这些情况。 3. 修复部分中文分数无法转换为阿拉伯分数的bug. 这个是一个逻辑处理上面的bug, 中文分数正常识别了,但是逻辑判断上面的bug导致没有转换。 4. 词库合并工具bug修复. 最新版本的词库已经上传到google code, 请使用最新版本的词库。 5. 词库加载错误友好提示. 如果词库中某些词条的格式错误,jcseg会直接终止,现在改成了提示用户哪个词库的哪个词条出错了,利于纠正过来。 6. 对复杂的数字和英文组合词进行再次切分。 这个是本次更新最大的亮点,例如:qq2013会被切分成:qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。 当然,你可以选择不开启这个功能。jcseg.properties中的控制选项。 #Wether to start the secondary segmentation for the complex english words. jcseg对英文的处理是通过空格和标点来断开的,默认jcseg保留了一些标点,也就是保留标点会当作字符来处理,这样可以识别一些复杂常用的组合词,例如:k&r, c++等。就拿qq2013来说,其他的分词器都会切分成:qq/ 2013, jcseg认为两个字符组合在一起肯定有其特定的含义,要保留组合,同时如果进行二次切分,可以避免带来的检索命中下降的情况。
方便用户自定义配置保留标点,也可以选择去掉。。。 感谢网友的反馈和支持,祝您心情愉快。。。 相关链接
|