设为首页收藏本站

开启辅助访问

LUPA开源社区 › 首页 ›业界资讯› 开源资讯 › 查看内容

准确率创新高，北大开源中文分词工具包pkuseg

2019-1-10 11:02| 发布者: joejoe0332| 查看: 978| 评论: 0|原作者: oschina|来自: oschina

摘要: 北京大学近日开源了一个全新的中文分词工具包 pkuseg ，相比于现有的同类开源工具，pkuseg 大幅提高了分词的准确率。pkuseg 由北大语言计算与机器学习研究组研制推出，具备如下特性：高分词准确率。多领域分词。支持 ...

北京大学近日开源了一个全新的中文分词工具包 pkuseg ，相比于现有的同类开源工具，pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出，具备如下特性：

高分词准确率。相比于其他的分词工具包，pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果，pkuseg 分别在示例数据集（ MSRA 和 CTB8 ）上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点，用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

在 Linux 环境下，各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下：

预训练模型

分词模式下，用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型，根据具体需要，用户可以选择不同的预训练模型。以下是对预训练模型的说明：

MSRA : 在 MSRA（新闻语料）上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8（新闻文本及网络文本的混合型语料）上训练的模型。下载地址

WEIBO : 在微博（网络文本语料）上训练的模型。下载地址

更多详情可查阅项目仓库。

收藏分享邀请

上一篇：Confluent修改开源许可证，限制云供应商滥用下一篇：大开源时代，“仁慈的独裁者”管理模式还走得通吗？

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

最新评论

一个起步晚，就说明根本没有面对现实的勇气。
google才几岁？

[url=http:///].ankor[/url] <a href="http:///">.ankor</a>

谈红色变，红是造假的代名词吧，红你妹啊。

: 看着牙疼！

看着牙疼！

能说脏话吗？不能，那没什么好说的了！

有人爱我吗？

System76还有自己的OS。现在可以递送到很多地区了。

英语太差了，回去补课吧。

腾讯，多年在中国占据软件第一的位置，可惜，除了QQ、微信外，什么都没有做出来。

联合查询呢?
hash join有了么?

垃圾文章！

中国，还得是华为！赞！

中国人就是不干正事，搞什么少数民族语言，把libreoffice加上系列码，都是找骂的事，就是不干正事。

腾讯也搞芯片，太搞笑了吧？腾讯存在多少年了？过去这么多年腾讯干什么去了？
小米都造出自己的松果仁了，腾讯干什么了？

最后三个图的区别是这样的吗？不对的地方请指出
class B{void m(){t();}void m1(){s();}
class B{void m(){}void m1(){t();}void m2(){s();}
class B{void m(){t();s();}

测试是不是真的

好个屌，就是一骗子

喜大普奔！这个.net core的广告我非常赞同！

PgSQL迟早会是第一。

Windows只是个OS，LINUX是整个完整的开发、应用、办公环境。有什么好比的呢？
把买Windows的钱捐给Linux基金更好吧。

一群无聊的人

上述表达式有一处错误。

老实说，除了最后一个，其他我都会

，请重新启动计算机！

你好，请问analysis中的属性标签是如何定义的？比如：“role”。另外，这里的timepark如何加入的？

我和我的小伙伴都惊呆了！

其实主要就是没有好的office和email-client。

土豪，我们做朋友吧！

病的不轻啊。

这个游戏从哪里下载的

太给力了！

太给力了！

太给力了！

太给力了！

按照步骤搭建不出来求救

史无前例的震撼！

太给力了！

太给力了！

发个评论测试一下这个滚动框是不是真的

太给力了！

太给力了！

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号 )

返回顶部