毕业设计——将获得的中文数据集进行jieba分词

如题,可供选择的分词工具有很多种,下面我将使用jieba分词进行中文分词。

待分词的文件:

 话不多说,上代码:

import jieba.analyse
with open('F:\csdn\csdn.txt',encoding='gbk') as f:    //此处可以改为自己需要分词的文件,更改地址即可
    document = f.read()
    document_cut = jieba.cut(document)
    result = ' '.join(document_cut)
    with open('F:\csdn\mi.txt', 'w',encoding="utf-8") as f2:  //此处为即将写入的分好词的文件
        f2.write(result) 

上结果:

 

jieba简单用法:

import jieba
sentences = jieba.cut(u"我喜欢唱跳rap篮球")  
result='\\'.join(sentences)
print(result)
if __name__ == "__main__":
    pass

运行结果:我\\喜欢\\唱\\跳\\rap\\篮球 

推荐几位优秀博主的博客:比较详细的Jieba分词应用

https://blog.csdn.net/FontThrone/article/details/72782499

https://blog.csdn.net/Yellow_python/article/details/80559586

发布了15 篇原创文章 · 获赞 8 · 访问量 898

猜你喜欢

转载自blog.csdn.net/caicai779369786/article/details/104342178