jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

2013-12-23 11:19| 发布者: 红黑魂| 查看: 2113| 评论: 0|来自: 开源中国

摘要: jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.jcseg-1.9.2更新内容：1. 配置文件中词库多目录加载, 多个目录使用';'隔开. 例如：在jcseg.properties中设置lexicon. ...

jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.2更新内容：

1. 配置文件中词库多目录加载, 多个目录使用';'隔开.

例如：在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2

2. 修复中文分数识别可能的一种错误组合的bug.

例如：三二分之，现在可以很好的处理这些情况。

3. 修复部分中文分数无法转换为阿拉伯分数的bug.

这个是一个逻辑处理上面的bug, 中文分数正常识别了，但是逻辑判断上面的bug导致没有转换。

4. 词库合并工具bug修复.

最新版本的词库已经上传到google code, 请使用最新版本的词库。

5. 词库加载错误友好提示.

如果词库中某些词条的格式错误，jcseg会直接终止，现在改成了提示用户哪个词库的哪个词条出错了，利于纠正过来。

6. 对复杂的数字和英文组合词进行再次切分。

这个是本次更新最大的亮点，例如：qq2013会被切分成：qq2013/ qq/ 2013，chenxin619315@gmail.com会被切分成：chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

当然，你可以选择不开启这个功能。jcseg.properties中的控制选项。

    #Wether to start the secondary segmentation for the complex english words.
    jcseg.ensencondseg = 1

    #min length of the secondary simple token. (better larger than 1)
    jcseg.stokenminlen = 2

jcseg对英文的处理是通过空格和标点来断开的，默认jcseg保留了一些标点，也就是保留标点会当作字符来处理，这样可以识别一些复杂常用的组合词，例如：k&r, c++等。就拿qq2013来说，其他的分词器都会切分成：qq/ 2013, jcseg认为两个字符组合在一起肯定有其特定的含义，要保留组合，同时如果进行二次切分，可以避免带来的检索命中下降的情况。

7. 将自动保留的标点放置到了jcseg.properties配置文件中, 方便更改并且默认去除了对/,^等的保留.

方便用户自定义配置保留标点，也可以选择去掉。。。

感谢网友的反馈和支持，祝您心情愉快。。。