设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

FoolNLTK发布Java版,基于深度学习的中文文本处理工具

2018-3-13 21:34| 发布者: joejoe0332| 查看: 510| 评论: 0|原作者: oschina|来自: oschina

摘要: FoolNLTK是一款基于深度学习的中文文本处理工具,暂时包含分词,词性标注,实体识别。现发布 Java 版。dependency groupIdme.midday/groupId artifactIdJFoolNLTK/artifactId version1.0/version /dependencyExample ...

FoolNLTK 是一款基于深度学习的中文文本处理工具,暂时包含分词,词性标注,实体识别。现发布 Java 版。

<dependency>
  <groupId>me.midday</groupId>
  <artifactId>JFoolNLTK</artifactId>
  <version>1.0</version>
</dependency>

Example

// 单文本 String text = "北京欢迎你"; 
LexicalAnalyzer lexicalAnalyzer = FoolNLTK.getLSTMLexicalAnalyzer(); // 分词 
List<List<Word>> words = lexicalAnalyzer.cut(text); 
for(List<Word> ws: words){
    ws.forEach(System.out::println); } // 词性标注 
List<List<Word>> posWords = lexicalAnalyzer.pos(text); 
for(List<Word> ws: posWords){
    ws.forEach(System.out::println); } // 实体识别 
List<List<Entity>>  entities = lexicalAnalyzer.ner(text);  
for(List<Entity> ents :entities){
    ents.forEach(System.out::println); } // 分词,词性,实体识别 
List<AnalysisResult>  results = lexicalAnalyzer.analysis(text); results.forEach(System.out::println);   // 多文本  
System.out.println(); 
System.out.println("多文本:"); 
List<String> docs = new ArrayList<>(); 
docs.add(text); docs.add(text); // 分词 
List<List<Word>> dWords = lexicalAnalyzer.cut(docs); 
for(List<Word> ws: dWords){
    ws.forEach(System.out::println); } // 
词性标注 List<List<Word>> dPosWords = lexicalAnalyzer.pos(docs); 
for(List<Word> ws: dPosWords){
    ws.forEach(System.out::println); }
List<List<Entity>>  dEntities = lexicalAnalyzer.ner(docs);  
for(List<Entity> ents :dEntities){
    ents.forEach(System.out::println); } // 分词, 词性标注,实体识别 
List<AnalysisResult>  dResults = lexicalAnalyzer.analysis(docs); dResults.forEach(System.out::println);

GitHub 


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部