NLPIR(ICTCLAS2015)分词工具Java开发简介 - 代码天地

NLPIR(ICTCLAS2015)分词工具Java开发简介

其他 2018-12-19 23:17:38 阅读次数: 0

分词往往是自然语言处理的第一步。在分词的基础上，我们可以进行关键字的提取、搜索、纠错等应用。在理论上，分词可以采用的方法有很多，最经典的办法莫过于HMM模型、CRF及其它语言模型如Bigram、Trigram等。NLPIR(又名：ICTCLAS2015)是由中科院张华平博士研发的，基于HMM模型免费分词软件。早期的版本名为ICTCLAS+年份。由于分词的内核是由C语言写成的，因此对于Java的开发人员不是十分地方便。不过好在Java的本地接口技术可以帮助我们应付简单的开发和测试。下面就是本人用NLPIR建立的Java工程环境。经过测试，可以正常运行和分词。在这里结合C接口说明文档进行解释（该文本可以从下载的NLPIR压缩包中获得）。

图1.工程效果图

0.初始化函数： NLPIR_Init(String sDataPath, int encoding, String sLicenceCode)

想要正确地运行NLPIR（无论在C环境还是Java环境），都必须具备两个东西：Data文件夹和动态链接库NLPIR.dll。它们均可以从下载的压缩包中获得。在图1中也可以看到。

1.对内存中的字符串进行分词：NLPIR_ParagraphProcess(String sSrc, int bPOSTagged)

2.对外存中的字符串进行分词：NLPIR_FileProcess(String sSourceFilename,String sResultFilename,int bPOStagged)

3.添加或者删除用户自己的词汇：NLPIR_AddUserWord(String sWord)， NLPIR_DelUsrWord(String sWord)

在了解了上述的一些接口函数后，我们就可以对做一些基本的分词工作了。例如图2就是一个分词的简单事例。

图2.分词程序的例子

分词的结果为（其中最后一个分词结果是添加了词性标注）：

猜你喜欢

转载自blog.csdn.net/wangongxi/article/details/43116873

NLPIR(ICTCLAS2015)分词工具Java开发简介

NLPIR/ICTCLAS 2015 分词系统使用

[转]中科院分词工具ICTCLAS Java JNI接口

java版中文分词-ICTCLAS小例子

中文分词ictclas的Java改造版本

中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）

Paoding, Ik, Jeasy, Ictclas4j分词工具

asp.net中引用 NLPIR-ICTCLAS2014 分词系统时碰到的问题及解决方案

中科院分词ictclas2013使用java调用

java程序打包成jar文件（自己实践和查网页解决，以中科院分词工具ICTCLAS5.0 为例）

中科院分词系统NLPIR的JAVA代码（补充2）

中科院分词系统NLPIR的JAVA代码（补充）

中科院分词系统NLPIR的JAVA代码（补充3）

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

NLPIR/ICTCLAS智能语义挖掘从文字语言到行业应用

NLPIR分词教程 Scala版

中科院分词系统NLPIR的JAVA代码（批量读取文件）

中科院分词系统（NLPIR）常见错误处理JAVA

NLPIR文本智能分词是语义挖掘的关键

NLPIR汉语分词系统在VS中使用

NLP笔记：中文分词工具简介

java分词工具hanlp介绍

ICTCLAS50中文分词之配置

针对中科院汉语分词系统nlpir中的中文分词部分在java环境的部署（Linux和windows）（获取关键词）

在java中使用word分词工具进行简单分词

改进的中科院分词系统NLPIR代码（加入用户词典，去停用词，文件读写）+情感分析字典包+工具包+论文包

NLPIR分词器javademo2016改编---非开源

解决NLPIR汉语分词系统init failed问题

NLPIR 汉语分词系统 (PyNLPIR) 学习手札

解决NLPIR中文分词系统Lisence过期问题

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)