jieba/pyhanlp分词简单操作
content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content = jieba.cut(content, cut_all=False)
print('/'.join(content))
content2 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content2 = jieba.cut(content2, cut_all=True)
print('/'.join(content2))
content3 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content3 = jieba.cut_for_search(content3)
print('/'.join(content3))
content4 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content4 = jieba.lcut(content4, cut_all=False)
print(content4)
import jieba.posseg as psg
content5 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content5 = psg.lcut(content5)
print([(x.word,x.flag) for x in content5])
from collections import Counter
top5 = Counter(content5).most_common(4)
print(top5)
txt = "铁甲网是中国最大的工程机械交易平台。"
jieba.add_word('铁甲网')
print(jieba.lcut(txt))
from pyhanlp import *
content6 = '现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。'
print(HanLP.segment(content6))
txt = "铁甲网是中国最大的工程机械交易平台。"
CustomDictionary.add('铁甲网')
CustomDictionary.insert('机械工程', 'nz 1024')
CustomDictionary.add('交易平台', 'nz 1024 n 1')
print(HanLP.segment(txt))