毕业设计——将获得的中文数据集进行jieba分词 - 代码天地

毕业设计——将获得的中文数据集进行jieba分词

编程语言 2020-02-16 15:02:47 阅读次数: 0

如题，可供选择的分词工具有很多种，下面我将使用jieba分词进行中文分词。

待分词的文件：

话不多说，上代码：

import jieba.analyse
with open('F:\csdn\csdn.txt',encoding='gbk') as f:    //此处可以改为自己需要分词的文件，更改地址即可
    document = f.read()
    document_cut = jieba.cut(document)
    result = ' '.join(document_cut)
    with open('F:\csdn\mi.txt', 'w',encoding="utf-8") as f2:  //此处为即将写入的分好词的文件
        f2.write(result)

上结果：

jieba简单用法：

import jieba
sentences = jieba.cut(u"我喜欢唱跳rap篮球")  
result='\\'.join(sentences)
print(result)
if __name__ == "__main__":
    pass

运行结果：我\\喜欢\\唱\\跳\\rap\\篮球

推荐几位优秀博主的博客：比较详细的Jieba分词应用

https://blog.csdn.net/FontThrone/article/details/72782499

https://blog.csdn.net/Yellow_python/article/details/80559586

cs_yougar

发布了15 篇原创文章 · 获赞 8 · 访问量 898

私信关注

猜你喜欢

转载自blog.csdn.net/caicai779369786/article/details/104342178

毕业设计——将获得的中文数据集进行jieba分词

利用jieba进行中文分词并进行词频统计

【jieba分词】中文分词工具jieba

中文分词原理及jieba分词

中文分词之jieba分词

中文分词（一）：jieba分词

jieba中文分词

jieba中文分词学习

【NLP】Jieba中文分词

中文分词工具—Jieba

《中文jieba分词》总结

中文分词库-jieba

python中使用jieba进行中文分词

jieba中文分词做文本数据挖掘实战demo

使用jieba分词对中文文档进行分词|停用词去重

优秀的中文分词jieba库

中文分词 jieba和HanLP

jieba中文分词.net版

Python中文分词库——jieba

NLP_中文分词/jieba分词原理

模块 jieba结巴分词库中文分词

毕业设计——前期数据爬虫

基于大数据平台的毕业设计

jieba分词，将分词后得数据类型转换为list,

python读写txt文件，并用jieba库进行中文分词

使用jieba库进行中文分词出现IndexError: list index out of range

毕业设计

java毕业设计

毕业设计准备

.net毕业设计

今日推荐

周排行

联发科MT6139射频处理器工作原理分析

LeetCode-191. 位1的个数

kubernetes中挂载glusterfs并使用

MetricBeat（win/linux）部署系统CPU内存等资源情况监控

京东，想说爱你，并不容易！

CSS文本笔录

标题栏和状态栏同色

[校内互测]20170402

#3194. 去月球

gitlab学习(7)---gitlab数据恢复

每日归档

更多

2024-06-15(0)

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)