自然语言处理之中文分词工具汇总

文章目录

1，jieba库最基础得分词库（pip install jieba)
2，snownlp 多功能分词库
3，pkuseg 北大分词库
4，thulac 清华分词库
5，foolnltk 需要安装tensorflow 1.x
6，pyhanlp （pip install pyhanlp）
7，LTP （pip install pyltp）
8，Stanford CoreNLP 斯坦福分词库（pip install stanfordcorenlp）
总结

1，jieba库最基础得分词库（pip install jieba)

import jieba
jieba.load_userdict('xxx.txt')  #加载自定义词

def func_jieba():
    posseg_ret = jieba.posseg.cut('这衣服都起球了，给我退了吧')
    list_jieba = [i for i in posseg_ret]
    print(list_jieba)

2，snownlp 多功能分词库

中文分词（Character-Based Generative Model）
词性标注（TnT 3-gram 隐马）
情感分析（现在训练数据主要是买卖东西时的评价，所以对其他的一些可能效果不是很好，待解决）
文本分类（Naive Bayes）
转换成拼音（Trie树实现的最大匹配）
繁体转简体（Trie树实现的最大匹配）
提取文本关键词（TextRank算法）
提取文本摘要（TextRank算法）
tf，idf
Tokenization（分割成句子）
文本相似（BM25）

from snownlp import SnowNLP

def func_snownlp():
    s_ret = SnowNLP('这衣服都起球了，给我退了吧')
    emotion = s_ret.sentiments    #情感分析结果积极得概率值    0.21577271188779912
    print(emotion)
    list_snownlp = [i for i in s_ret.tags]    #s_ret.words 输入为切完得词    s_ret.tags为带词性得词
    print(list_snownlp)

3，pkuseg 北大分词库

支持了新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词

import pkuseg

def func_pkuseg():
    pku_seg = pkuseg.pkuseg(model_name='web',postag=True)  #model_name默认为混合领域  postag为词性标注
    pku_ret = pku_seg.cut('这衣服都起球了，给我退了吧')
    list_pkuseg = [i for i in pku_ret]
    print(list_pkuseg)

4，thulac 清华分词库

import thulac

def func_thulac():
    thup = thulac.thulac(seg_only=True)       #seg_only=True 为不标注词性
    thulac_ret = thup.cut('这衣服都起球了，给我退了吧',text=True)  #text=True 以字符串显示  False为以列表显示
    print(thulac_ret)

5，foolnltk 需要安装tensorflow 1.x

可能不是最快的开源中文分词，但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词，词性标注，实体识别,　都有比较高的准确率
用户自定义词典
可训练自己的模型
批量处理

import fool

def func_foolnltk():
    text = ['数据库的户口杀害','伤口缝合的卡号发数据会丢失']
    fool_ret = fool.cut(text)
    print(fool_ret)
    fool_ret1 = fool.pos_cut('这衣服都起球了，给我退了吧')
    list_foolnltk = [i for i in fool_ret1[0]]
    print(list_foolnltk)

6，pyhanlp （pip install pyhanlp）

需要下载zip压缩文件600多M，故未测试
自然语言处理工具包HanLP的Python接口

7，LTP （pip install pyltp）

接下来，需要下载 LTP 模型文件。

下载地址 - 模型下载
注意在windows下 3.4.0 版本的语义角色标注模块模型需要单独下载，具体查看下载地址链接中的说明。
请确保下载的模型版本与当前版本的 pyltp 对应，否则会导致程序无法正确加载模型。

压缩文件有600多M，解压后1.2G，里面有不同NLP任务的模型，故未测试

8，Stanford CoreNLP 斯坦福分词库（pip install stanfordcorenlp）

是斯坦福大学CoreNLP的python封装
但是要使用中文NLP模块需要下载两个包，在CoreNLP的下载页面下载模型数据及jar文件，目前官方是3.9.1版本：
https://nlp.stanford.edu/software/corenlp-backup-download.html

第一个是：stanford-corenlp-full-2018-02-27.zip
第二个是：stanford-chinese-corenlp-2018-02-27-models.jar
前者解压后把后者也要放进去，否则指定中文的时候会报错。

需要下载zip压缩文件900多M，故未测试

总结

工具千千万顺手才是最好得工具，如有更好得开源中文分词工具欢迎相互交流。

锲启

发布了49 篇原创文章 · 获赞 13 · 访问量 2万+

私信关注