识别同音字词pypinyin, 分词 jieba

其他 2019-04-28 15:31:24 阅读次数: 0

一.pypinyin

在处理语音输入指令时, 比如请给圆圆发消息,那么转化为文字识别时, 无法确定转换的是圆圆还是园园或是源源, 为了解决这个问题, 就把指令转换为拼音来处理,这样就可以处理同音字了.用到的库为pypinyin

简单使用, TONE,TONE2,TONE3为不同转换模式

from pypinyin import lazy_pinyin,TONE,TONE2,TONE3

a = '圆圆'
b = '源源'
c = '园园'

print(''.join(lazy_pinyin(a, style=TONE)))
print(''.join(lazy_pinyin(b, style=TONE2)))
print(''.join(lazy_pinyin(c, style=TONE3)))

#结果
yuányuán
yua2nyua2n
yuan2yuan2

二 jieba

import jieba

a = '我们来试试这个分词'
print(jieba.cut(a))  # <generator object Tokenizer.cut at 0x0000019C3F4523B8>

print(list(jieba.cut(a)))

import jieba

jieba.add_word('这个分词') # 添加分词
a = '我们来试试这个分词'
print(jieba.cut(a))  # <generator object Tokenizer.cut at 0x0000019C3F4523B8>

print(list(jieba.cut(a)))

　　这个模块仅对中文支持友好,英文什么的就不好用了.如果想用英文分词的话,在google的tensorflow里面有一个功能很好用

猜你喜欢

转载自www.cnblogs.com/robertx/p/10784163.html

识别同音字词pypinyin, 分词 jieba

jieba分词

jieba分词，识别【带空格的词】

分词————jieba分词（Python）

【jieba分词】中文分词工具jieba

中文分词原理及jieba分词

中文分词之jieba分词

中文分词（一）：jieba分词

jieba分词实战

jieba分词完整文档

python jieba分词

jieba分词过程

jieba中文分词

jieba中文分词学习

python jieba 分词初识

【NLP】Jieba中文分词

jieba分词的原理

jieba分词的词性表

中文分词工具—Jieba

jieba分词的应用（java）

jieba结巴分词

关于jieba分词的用法

jieba分词-词性标注

（一）jieba分词

python jieba分词模块

jieba 分词简单应用

[python]分词工具jieba

NLP之jieba分词

jieba分词算法

jieba分词原理

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)