Python的jieba模块简介 - 代码天地

Python的jieba模块简介

其他 2018-10-13 10:33:37 阅读次数: 0

现如今，词云技术遍地都是，分词模块除了jieba也有很多，主要介绍一下jieba的基本使用

import jieba
import jieba.posseg as psg
from os import path
from collections import Counter

s=u'我想和女朋友一起去北京天安门闲逛。。'

cut = jieba.cut(s)

print('精确模式')
print(cut)
print(','.join(cut))

print ('全模式')
print(','.join(jieba.cut(s,cut_all = True)))

print('搜索引擎模式')
print(','.join(jieba.cut_for_search(s)))

print('词性')
print([(x.word,x.flag) for x in psg.cut(s)])
print([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith('n')])




print('--*--'*10)
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode:", "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode:", "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

d=path.dirname(__file__)
sanguo_text=open(path.join(d,"data//sanguo.txt"),encoding='utf-8').read()
print(len(sanguo_text))

sanguo_words = [x for x in jieba.cut(sanguo_text) if len(x) >= 2]
c = Counter(sanguo_words).most_common(20)
print(c)

运行结果

其中精确模式比较好用，全模式就是尽量将所有的词拿出来

猜你喜欢

转载自www.cnblogs.com/yuxuanlian/p/9781792.html

Python的jieba模块简介

python jieba分词模块

基于python的中文分词库jieba简介

python jieba模块基本命令讲解

Windows之Python模块jieba安装

python anaconda 中安装jieba分词模块

python模块专题——2.jieba

【Python jieba】

好玩的分词——python jieba分词模块的基本用法

[python] jieba 模块 -- 给中文文本分词

python 数据分析文章集锦 re&jieba模块

中文自然语言处理(NLP)(一)python jieba模块

Python 的 six模块简介

python模块与包简介

Python CSV模块简介

python的pymysql模块简介

Python logging 模块简介

Python模块简介

Python 模块简介 -- functools

python的scapy模块简介

Python OS模块简介

python常用模块简介

python time模块简介

python - selenium模块简介

python xlwt模块简介

Python的os模块简介

python ipaddress模块简介

【Python】OS 模块简介

Python 日志模块简介

python dicttoxml模块简介

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)