设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

Java分布式中文分词组件word分词v1.2发布

2015-4-12 22:01| 发布者: joejoe0332| 查看: 890| 评论: 0|原作者: oschina|来自: oschina

摘要:   word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间 等数量词,能识别人名、地名、组织机构名等未登录词。同时 ...

  word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间 等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。


  自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、支持资源变化自动检测、新增了全切分 算法、支持三元模型、支持Luke插件、增加gradle支持等等,同时,word1.2支持最新的ElasticSearch1.5.1、 Lucene4.10.4、Solr4.10.4以及Luke4.0。


  更多细节请查看:word分词主页


  word分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部