自然语言处理之中文分词工具汇总

1,jieba库 最基础得分词库(pip install jieba)

import jieba
jieba.load_userdict('xxx.txt')  #加载自定义词

def func_jieba():
    posseg_ret = jieba.posseg.cut('这衣服都起球了,给我退了吧')
    list_jieba = [i for i in posseg_ret]
    print(list_jieba)

2,snownlp 多功能分词库

中文分词(Character-Based Generative Model)
词性标注(TnT 3-gram 隐马)
情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
文本分类(Naive Bayes)
转换成拼音(Trie树实现的最大匹配)
繁体转简体(Trie树实现的最大匹配)
提取文本关键词(TextRank算法)
提取文本摘要(TextRank算法)
tf,idf
Tokenization(分割成句子)
文本相似(BM25)

from snownlp import SnowNLP

def func_snownlp():
    s_ret = SnowNLP('这衣服都起球了,给我退了吧')
    emotion = s_ret.sentiments    #情感分析结果积极得概率值    0.21577271188779912
    print(emotion)
    list_snownlp = [i for i in s_ret.tags]    #s_ret.words 输入为切完得词    s_ret.tags为带词性得词
    print(list_snownlp)

3,pkuseg 北大分词库

支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词

import pkuseg

def func_pkuseg():
    pku_seg = pkuseg.pkuseg(model_name='web',postag=True)  #model_name默认为混合领域  postag为词性标注
    pku_ret = pku_seg.cut('这衣服都起球了,给我退了吧')
    list_pkuseg = [i for i in pku_ret]
    print(list_pkuseg)

4,thulac 清华分词库

import thulac

def func_thulac():
    thup = thulac.thulac(seg_only=True)       #seg_only=True 为不标注词性
    thulac_ret = thup.cut('这衣服都起球了,给我退了吧',text=True)  #text=True 以字符串显示  False为以列表显示
    print(thulac_ret)

5,foolnltk 需要安装tensorflow 1.x

可能不是最快的开源中文分词,但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词,词性标注,实体识别, 都有比较高的准确率
用户自定义词典
可训练自己的模型
批量处理

import fool

def func_foolnltk():
    text = ['数据库的户口杀害','伤口缝合的卡号发数据会丢失']
    fool_ret = fool.cut(text)
    print(fool_ret)
    fool_ret1 = fool.pos_cut('这衣服都起球了,给我退了吧')
    list_foolnltk = [i for i in fool_ret1[0]]
    print(list_foolnltk)

6,pyhanlp (pip install pyhanlp)

需要下载zip压缩文件600多M,故未测试
自然语言处理工具包HanLP的Python接口

7,LTP (pip install pyltp)

接下来,需要下载 LTP 模型文件。

下载地址 - 模型下载
注意在windows下 3.4.0 版本的 语义角色标注模块 模型需要单独下载,具体查看下载地址链接中的说明。
请确保下载的模型版本与当前版本的 pyltp 对应,否则会导致程序无法正确加载模型。

压缩文件有600多M,解压后1.2G,里面有不同NLP任务的模型,故未测试

8,Stanford CoreNLP 斯坦福分词库(pip install stanfordcorenlp)

是斯坦福大学CoreNLP的python封装
但是要使用中文NLP模块需要下载两个包,在CoreNLP的下载页面下载模型数据及jar文件,目前官方是3.9.1版本:
https://nlp.stanford.edu/software/corenlp-backup-download.html

第一个是:stanford-corenlp-full-2018-02-27.zip
第二个是:stanford-chinese-corenlp-2018-02-27-models.jar
前者解压后把后者也要放进去,否则指定中文的时候会报错。

需要下载zip压缩文件900多M,故未测试

总结

工具千千万 顺手才是最好得工具,如有更好得开源中文分词工具欢迎相互交流。

发布了49 篇原创文章 · 获赞 13 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_44166997/article/details/103772041