来源:Python语言程序设计 -嵩天
PS:中文分词库有jieba库,pkuseg库等
jieba库
-
分词模式
(1)精确模式:把文本精确地切分开,扫描出的词语拼接为原文不存在冗余单词
(2)全模式:把文本中所有模式从不同角度切分的词语都扫描出来,扫描出的词语拼接为原文有冗余。
(3)搜索引擎模式:在精确模式的基础上,对长词进行再切分,扫描出的词语拼接为原文有冗余。 -
常用函数
来源:Python语言程序设计 -嵩天
PS:中文分词库有jieba库,pkuseg库等
分词模式
(1)精确模式:把文本精确地切分开,扫描出的词语拼接为原文不存在冗余单词
(2)全模式:把文本中所有模式从不同角度切分的词语都扫描出来,扫描出的词语拼接为原文有冗余。
(3)搜索引擎模式:在精确模式的基础上,对长词进行再切分,扫描出的词语拼接为原文有冗余。
常用函数