Python中文分词jieba.lcut()函数

选择题

以下代码的输出结果是?

import jieba

str="中国是一个伟大的国家"

jieba.lcut(str)

选项:

A. ['中国是一个伟大的国家']

B. ['中国', '是', '一个', '伟大', '的', '国家']

C. ['中国', '国是', '一个', '伟大', '的', '国家']

D. '中国是一个伟大的国家'

问题解析

1.jieba是python中的中文分词第三方库,可以将中文的文本通过分词获得单个词语,返回类型为列表类型。

2.jieba分词共有三种模式:精确模式、全模式、搜索引擎模式。

(1)精确模式语法:jieba.lcut(字符串,cut_all=False),默认时为cut_all=False,表示为精确模型。精确模式是把文章词语精确的分开,并且不存在冗余词语,切分后词语总词数与文章总词数相同。

(2)全模式语法:ieba.lcut(字符串,cut_all=True),其中cut_all=True表示采用全模型进行分词。全模式会把文章中有可能的词语都扫描出来,有冗余,即在文本中从不同的角度分词,变成不同的词语。

(3)搜索引擎模式:在精确模式的基础上,对长词语再次切分。

3.在此题中,字符串为"中国是一个伟大的国家",jieba.lcut(str)表示以精确模式切分词语,不存在冗余词语且切分后词语总词数与"中国是一个伟大的国家"词数相同,所以答案为['中国', '是', '一个', '伟大', '的', '国家']。

答案

正确答案是:B

温馨期待

期待大家提出宝贵建议,互相交流,收获更大。

欢迎大家转发,一起传播知识和正能量,帮助到更多人。期待大家提出宝贵改进建议,互相交流,收获更大。辛苦大家转发时注明出处(也是咱们公益编程交流群的入口网址),刘经纬老师共享知识相关文件下载地址为:http://liujingwei.cn

猜你喜欢

转载自blog.csdn.net/liujingwei8610/article/details/121758179