设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

Jcseg 1.9.8发布,新增检索模式/细粒度切分

2016-6-14 22:21| 发布者: joejoe0332| 查看: 404| 评论: 0|原作者: oschina|来自: oschina

摘要: Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口。Jcseg 1.9.8 更新内容: ...

Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口。

Jcseg 1.9.8 更新内容:

  1. 增加检索切分模式(SEARCH_MODE),实现细粒度切分,专业为搜索。

  2. 增加DictionaryFactory#createSingletonDictionary,用于创建单例词库。

  3. 将analyzer,elasticsearch接口词库更改为单例创建,节省内存,同时避免了多实例的下词库自动加载无法全局更新的问题。

  4. 提供对lucene,solr 6.0以上版本的支持,elasticsearch 2.3.1以上版本的支持。

  5. 增加JcsegAnalyzer5X如下构造方法方便lucene应用的打包发布:

    1
    2
    3
    JcsegAnalyzer5X(int mode, String proFile)
    JcsegAnalyzer5X(int mode, JcsegTaskConfig config)
    JcsegAnalyzer5X(int mode, JcsegTaskConfig config, ADictionary dic)
  6. 代码格式标准化,例如:4空格代替tab,花括号的换行等。

  7. 词库优化(去除些许无用词,完善部分词条词性定义)。

  8. 修复jcseg-server.properties#jcseg_global_setting名称错误, 更改为:jcseg_global_config。

  9. 修复JcsegServer#http_config设置bug和TokenizerController#pos拼写错误。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部