Python学习（二）利用jieba分词及去停用词 - 代码天地

Python学习（二）利用jieba分词及去停用词

其他 2018-08-10 21:16:13 阅读次数: 0

#encoding=utf-8
import sys
sys.path.append("../") 
import jieba  
import jieba.posseg as pseg
from jieba import analyse
#加载停用词表
stop = [line.strip().decode('utf-8') for line in open('stop_words.txt').readlines() ]
#导入自定义词典  
jieba.load_userdict("userdict.txt")

# 读取文本
f = open('example.txt')
s = f.read()
#s="朝鲜半岛西北部古元古代高温变质-深熔作用:宏观和微观岩石学以及锆石U-Pb年代学制约"

#分词
segs = jieba.cut(s, cut_all=False)
#print u"[精确模式]: ", "  ".join(segs)

#分词并标注词性
segs = pseg.cut(s)


final = ''
for seg ，flag in segs:
    #去停用词
    if seg not in stop:
       #去数词和去字符串
       if flag !='m' and flag !='x':
            #输出分词
            final +=' '+ seg 
            #输出分词带词性
            # final +=' '+ seg+'/'+flag
print final

猜你喜欢

转载自blog.csdn.net/u013240519/article/details/75220337

Python学习（二）利用jieba分词及去停用词

python使用jieba实现中文文档分词和去停用词

NLP 学习 task2 - jieba、分词、去停用词、词频统计

结巴分词 python结巴分词、jieba加载停用词表 python结巴分词、jieba加载停用词表

python结巴分词、jieba加载停用词表

python进行分词、去停用词和统计词频

jieba ：分词去停用词 stop words

python中读入文件jieba分词，使用字典和停用词，再将结果写入文件

python 去除停用词结巴分词

jieba分词的停用词问题

python--对文本分词去停用词提取关键词并词云展示完整代码示例

分词去停用词操作

结巴分词----去停用词

使用jieba分词对中文文档进行分词|停用词去重

分词去停用词词频统计

[Python]jieba切词添加字典去除停用词、单字 python 2020.2.10

jieba分词，去除停用词并存入txt文本

使用jieba分词并去除停用词流程程序

[学习记录]NLTK常见操作一（去网页标记，统计词频，去停用词）

自然语言处理爬过的坑：使用python结巴对中文分词并且进行过滤，建立停用词。常见的中文停用词表大全

python （分词、自定义词表、停用词、词频统计与权值（tfidf）、词性标注与部分词性删除）

IKAnalyzer进行中文分词和去停用词

去停用词

实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量

分词————jieba分词（Python）

中文分词与停用词的作用

邮件分词去掉停用词

【python 走进NLP】利用jieba技术中文分词并写入txt

python 结巴分词(jieba)学习

python3.6爬取豆瓣电影《我不是药神》的短评、去停用词、词云分析处理

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)