中文自然语言处理工具HanLP源码包的下载使用

最近打算研究一下中文自然语言处理,去年做的项目已经积累了一些语音识别的相关项目,本来打算研究一下语音识别方向源码的,但是苦于语音数据难于搜集,网上这方面免费开源的数据也少的可怜,于是转战文本自然语言处理,相对于语音,文本的词库网上开源的比较多,自己也比较好搜集素材,毕竟网络文章随便写个脚本爬一下就是一大堆。

在这里先推荐两本书吧,给同样想要学习中文自然语言处理的朋友一些参考,一本是《NLP汉语自然语言处理原理与实战》,里面介绍了汉语自然语言处理的相关技术,还有一些源代码的解读,这里要感谢作者。另一本是《python自然语言处理》,下面贴一下我的网盘地址:

《NLP汉语自然语言处理原理与实战》:

链接:https://pan.baidu.com/s/13g-KRw2XPCvqXeHZ87cawA 密码:91dr

《python自然语言处理》:

链接:https://pan.baidu.com/s/1BW94LgXl5SsxJCp4Mpi9Ag 密码:0e29

好了进入正题,这篇文章主要是备忘,并不谈及原理和代码,这些后面深入研究一下再写成系列专辑,今天主要记一下下载HanLP自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。鉴于我之前就这样看源代码看了几天,有一些头绪,但是总体感觉还是很朦胧,进展缓慢,于是决定转变思路,先把源代码中提供的demo跑通,然后顺着每一个demo的调用顺序顺藤摸瓜的去看源代码,这样调理清晰很多。

其实只需要下载源代码,下载字典和模型数据文件、下载配置文件,稍微改一下配置文件,然后再使用IDE打开源代码,就可以跑了,整个过程并不复杂。

源代码、字典及模型、配置文件下载地址:

https://github.com/hankcs/HanLP/releases

网页中提供了详细的说明,其实按照说明来就可以,下载以后将字典和模型文件解压到一个目录,建议放在工程名目录下:


data中就是模型文件和字典数据文件:


通过github提供的源代码下载链接下载下来的文件不包含hanlp.properties配置文件,这是你需要下载一个release版本的代码,解压以后,里面有一个hanlp.properties文件


将这个文件分别拷贝到解压以后的源代码target/classes和target-classes目录下


最后用ide打开源代码,我使用的ide工具是IDEA(Intellij),其他ide的操作应该大同小异,当然配置文件也许只需要一份就够了,不需要两个目录都拷贝,我这里没有验证,为保险起见,两个目录下都拷贝一份,读者可以试验一下,我这里主要目的是为了能跑通。

上述步骤完成之后,打开src/test/java/com.hankcs/demo下的demo,就可以跑出结果了,接下来,就顺藤摸瓜去读源代码吧



猜你喜欢

转载自blog.csdn.net/wolf1132/article/details/80094214
今日推荐