中文分词 jieba和HanLP - 代码天地

中文分词 jieba和HanLP

其他 2018-11-30 13:27:48 阅读次数: 0

安装python包：

pip install nltk
pip install jieba
pip install pyhanlp
pip install gensim

使用jieba进行分词

import jieba
content = "现如今，机器学习和深度学习带动人工智能飞速的发展，并在图片处理、语音识别领域取得巨大成功。"
# cut_all 参数用来控制是否采用全模式
segs_1 = jieba.cut(content, cut_all=False)
print("/".join(segs_1))
segs_3 = jieba.cut(content, cut_all=True)
print("/".join(segs_3))
segs_4 = jieba.cut_for_search(content)  # 默认不使用 HMM 模型
print("/".join(segs_4))
segs_5 = jieba.lcut(content)
print(segs_5)
# 获取词性
import jieba.posseg as psg
print([(x.word,x.flag) for x in psg.lcut(content)])
# 获取分词结果中词列表的 top n
from collections import Counter
top5= Counter(segs_5).most_common(5)
print(top5)
txt = "铁甲网是中国最大的工程机械交易平台。"
print(jieba.lcut(txt))
jieba.add_word("铁甲网")
# jieba.load_userdict('user_dict.txt')
print(jieba.lcut(txt))

结果为：
[‘铁甲网’, ‘是’, ‘中国’, ‘最大’, ‘的’, ‘工程机械’, ‘交易平台’, ‘。’]

使用pyhanlp进行分词

from pyhanlp import *
content = "现如今，机器学习和深度学习带动人工智能飞速的发展，并在图片处理、语音识别领域取得巨大成功。"
print(HanLP.segment(content))
txt = "铁甲网是中国最大的工程机械交易平台。"
print(HanLP.segment(txt))
CustomDictionary.add("铁甲网")
CustomDictionary.insert("工程机械", "nz 1024")
CustomDictionary.add("交易平台", "nz 1024 n 1")
print(HanLP.segment(txt))

结果为：
[铁甲网/nz, 是/vshi, 中国/ns, 最大/gm, 的/ude1, 工程机械/nz, 交易平台/nz, 。/w]

猜你喜欢

转载自blog.csdn.net/lhxsir/article/details/83303414

中文分词 jieba和HanLP

中文自动分词---HanLP+jieba

HanLP中文分词——字典分词

中文分词之jieba分词

中文分词原理及jieba分词

中文分词（一）：jieba分词

HanLP笔记 - 中文分词

jieba中文分词

jieba中文分词学习

【NLP】Jieba中文分词

中文分词工具—Jieba

《中文jieba分词》总结

中文分词库-jieba

Elasticsearch应用Hanlp中文分词和Pinyin 拼音分词

【jieba分词】中文分词工具jieba

中文分词模型-pkuseg和jieba对比

分词工具比较及使用(ansj、hanlp、jieba)

Java中文分词hanlp使用

NLP_中文分词/jieba分词原理

模块 jieba结巴分词库中文分词

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）

优秀的中文分词jieba库

jieba中文分词.net版

Python中文分词库——jieba

hanlp和jieba等六大中文分工具的测试对比

分词工具Hanlp基于感知机的中文分词框架

Hanlp在java中文分词中的使用介绍

Hanlp源码解析之中文分词算法

中文分词算法工具hanlp源码解析

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)