中文文本情感识别：jieba分词应用实例 - 代码天地

中文文本情感识别：jieba分词应用实例

其他 2020-02-23 10:24:44 阅读次数: 0

分类目录——情感识别

对于英文，其词法结构决定了其天生就是已经分词了的，通过空格分词即可

print('I love you'.split(' '))	# 用空格切分长字符串
# ['I', 'love', 'you']

对于中文，就需要通过另外的手段进行分词了

jieba这样一个功能包是中文文本分词的常用手段之一

随便做了如下这样一个测试文件，内容是gensim下的词向量生成模型word2vec的属性说明

1582378458925

import jieba

with open('data.txt', encoding='utf8') as f:
    sentenceslist = f.read().splitlines()   # 读取文档按行生成列表
    # ['1.sentences：可以是一个List，对于大语料集，建议',
    # '2.sg： 用于设置训练算法，默认为0，对应CBOW算法',
    # '3.size：是指输出的词的向量维数，默认为100。',
    # ...]

# 只需要调用jieba.cut(str)就可以将str进行分词，返回在一个列表中
res = [list(jieba.cut(sent)) for sent in sentenceslist]
# [['1', '.', 'sentences', '：', '可以', '是', '一个', 'List', '，', '对于', '大', '语料', '集', '，', '建议'],
# ['2', '.', 'sg', '：', ' ', '用于', '设置', '训练', '算法', '，', '默认', '为', '0', '，', '对应', 'CBOW', '算法'],
# ['3', '.', 'size', '：', '是', '指', '输出', '的', '词', '的', '向量', '维数', '，', '默认', '为', '100', '。'],
# ...]]

可以看到句子已经被被分割成词的列表，看到其中还有标点符号，当然这些是需要取到了，可以通过过正则表达式去标点；在文本处理还有一种去停用词的操作，就是去掉对目标（比如情感识别）无用的词汇，诸如像‘的’、‘了’或者标点符号之类的，可以去网上搜一份停用词列表，通过匹配该列表过滤一遍词列表。

BBJG_001

发布了119 篇原创文章 · 获赞 86 · 访问量 5841

私信关注

猜你喜欢

转载自blog.csdn.net/BBJG_001/article/details/104455072

中文文本情感识别：jieba分词应用实例

[python] jieba 模块 -- 给中文文本分词

NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

python的中文文本挖掘库snownlp进行购物评论文本情感分析实例

bert中文文本情感分类微博评论挖掘之Bert实战应用案例-文本情感分类

中文文本情感分类及情感分析资源大全

java 中文文本分词

中文文本分词 API 接口

Python + wordcloud + jieba 中文文本生成词云

使用jieba分词对中文文档进行分词|停用词去重

python实现中文文档jieba分词和分词结果写入excel文件

Python - 中文文本情感分析（基于snownlp ）

jieba中文分词做文本数据挖掘实战demo

使用jieba分词计算txt中文本的词频

【jieba分词】中文分词工具jieba

中文分词之jieba分词

中文分词原理及jieba分词

中文分词（一）：jieba分词

jieba中文分词

jieba中文分词学习

【NLP】Jieba中文分词

中文分词工具—Jieba

《中文jieba分词》总结

中文分词库-jieba

python 中文分词(规则分词实现，HMM+Viterbi实现统计分词，jieba分词应用)

jieba分词的应用（java）

jieba 分词简单应用

文章分词/jieba的应用

Python 中文文本分词（包含标点的移除）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)