设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

结巴分词 0.28 发布,Python 中文分词组件

2013-4-27 13:20| 发布者: 红黑魂| 查看: 631| 评论: 0|来自: 开源中国

摘要: 2013-04-27: version 0.28========================1) 新增词典lazy load功能,用户可以在'import jieba'后再改变词典的路径. 感谢hermanschaaf2) 显示词典加载异常时错误的词条信息. 感谢neuront3) 修正了词典被vim ...

2013-04-27: version 0.28
========================
1) 新增词典lazy load功能,用户可以在'import jieba'后再改变词典的路径. 感谢hermanschaaf
2) 显示词典加载异常时错误的词条信息. 感谢neuront 
3) 修正了词典被vim编辑后会加载失败的bug. 感谢neuront  

模块初始化机制的改变:lazy load
=====================

jieba采用延迟加载,"import jieba"不会立即触发词典的加载,一旦有必要才开始加载词典构建trie。如果你想手工初始jieba,也可以手动初始化。

    import jieba
    jieba.initialize() #手动初始化(可选)


在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径:


    jieba.set_dictionary('data/dict.txt.big')


例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py

Changelog:

https://github.com/fxsjy/jieba/blob/master/Changelog


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部