jieba分词自定义词典

    从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整:

with open(file='./Minedic.txt',mode='r',encoding='utf-8') as f:
    read=f.readlines()

for line in read:
    str=line.replace('\t',' ').rstrip()
    with open('./Minedic.txt','a+',encoding='utf-8')as f1:
        # print(1)
        f1.write(str+'\n')

    加载自定义词典:jieba

str="我是云计算的工作人员,是中华人民共和国党员,还是一名非常优秀的程序猿!"
jieba.load_userdict('Minedic.txt')
#默认 cut_all=False, HMM=True ,HMM:隐马尔可夫算法,能够识别未登录语料
cut=jieba.cut(str, cut_all=False, HMM=True)
print(" ".join(cut))

serchCut = jieba.cut_for_search(str) # 搜索引擎切割方式,带上标点符号
print('/'.join(serchCut))

猜你喜欢

转载自blog.csdn.net/Dorisi_H_n_q/article/details/82013164