Python 中文文本分词（包含标点的移除） - 代码天地

Python 中文文本分词（包含标点的移除）

其他 2018-05-10 11:15:25 阅读次数: 3

背景信息

本文为构建中文词向量的前期准备，主要实现中文文本的分词工作，并且在分词过程中移除了标点符号、英文字符、数字等干扰项，从而可以得到较为纯净的分词后的中文语料。

详细代码

import jieba
import jieba.analyse
import jieba.posseg as pseg
import codecs,sys
from string import punctuation
if sys.getdefaultencoding() != 'utf-8':
    reload(sys)
    sys.setdefaultencoding('utf-8')
# 定义要删除的标点等字符
add_punc='，。、【 】 “”：；（）《》‘’{}？！⑦()、%^>℃：.”“^-——=&#@￥'
all_punc=punctuation+add_punc

#def cut_words(sentence):
    #print sentence
#    return " ".join(jieba.cut(sentence)).encode('utf-8')
# 指定要分词的文本
f=codecs.open('/book/04.word2vec/simple-examples/data/zhuxianshort.txt','r',encoding="utf8")
#指定分词结果的保存文本
target = codecs.open("/book/04.word2vec/simple-examples/data/zxout.txt", 'w',encoding="utf8")
print ('open files')
line_num=1
line = f.readline()
while line:
    print('---- processing ', line_num, ' article----------------')
    # 第一次分词，用于移除标点等符号
	#line=re.sub(r'[A-Za-z0-9]|/d+','',line)   #用于移除英文和数字
	line_seg = " ".join(jieba.cut(line))
    # 移除标点等需要删除的符号
    testline=line_seg.split(' ')
    te2=[]
    for i in testline:
        te2.append(i)
        if i in all_punc:
            te2.remove(i)
    # 返回的te2是个list，转换为string后少了空格，因此需要再次分词
	# 第二次在仅汉字的基础上再次进行分词
    line_seg2 = " ".join(jieba.cut(''.join(te2)))
    target.writelines(line_seg2)
    line_num = line_num + 1
    line = f.readline()
f.close()
target.close()
exit()

说明：上述代码中指定的中文文本为小说诛仙，如下读取了分词前和分词后各10行文本，可以看出标点符号已被删除，但分词效果主要取决于jieba分词器：

猜你喜欢

转载自blog.csdn.net/wiborgite/article/details/79886947

Python 中文文本分词（包含标点的移除）

[python] jieba 模块 -- 给中文文本分词

python ：中英文文本预处理（包含去标点分词词干提取）

【python】英文文本分词词频统计

Python中文文本分句 sentence tokenize

【Python】英文文本分词与词频统计（split()函数、re库）

java 中文文本分词

中文文本分词 API 接口

如何用 Python 和循环神经网络（RNN）做中文文本分类？

python3使用fasttext进行中文文本分类

python 文本分词+文本相似度分析

Python中文本分割的具体方式

python读入中文文本编码错误

【NLP】Python中文文本聚类

中文文本分类

中文文本分句

[Python人工智能] 二十一.Word2Vec+CNN中文文本分类详解及与机器学习（RF\DTC\SVM\KNN\NB\LR）分类对比

[Python人工智能] 二十八.Keras深度学习中文文本分类万字总结（CNN、TextCNN、LSTM、BiLSTM、BiLSTM+Attention）

期末作业——波士顿房价预测及中文文本分词

python实现中文文档jieba分词和分词结果写入excel文件

Python + wordcloud + jieba 中文文本生成词云

SnowNLP：中文文本处理Python库

自然语言处理 | (19) Python中文文本表示

Python - 中文文本情感分析（基于snownlp ）

python 文本分析

python文本分析

python的文本分类

Python3 分词去掉文本标点(自主定义)并构建tfidf词向量

简单的朴素贝叶斯算法实现英文文本分类（Python实现）

中文文本分类1

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)