中文文本预处理 - 代码天地

中文文本预处理

其他 2018-06-12 16:42:51 阅读次数: 2

中文文本预处理

# -*- coding: utf-8 -*-
import regex as re

str_keyword = "第三条"
res = str_keyword.isdigit() #判断是否是纯数字
######################33

##########################
#判断是否含有%号
if '%' in str_keyword:
    print ('Exist')
else:
    print('no exist')


#判断是否含有"第几条"
bianliang = re.fullmatch(r'((第)(.?)(条|章))',str_keyword)
if bianliang:
    print('匹配上了第几条')

######################################
i_text_str ='我123爱你%%中国'
r1 = u'[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'#用户也可以在此进行自定义过滤字符
tem=re.sub(r1, '',i_text_str) #过滤内容中的各种标点符号
print('tem ====',tem)

猜你喜欢

转载自www.cnblogs.com/www-caiyin-com/p/9173729.html

中文文本预处理

中文文本挖掘预处理流程总结

【转】中文文本挖掘预处理流程总结

中文/英文文本挖掘预处理流程总结

torchtext中文文本预处理使用流程文档

中文文本预处理流程(带你分析每一步)

mongodb中文文本数据（新闻评论）预处理代码（python+java）

中文文本纠错（CSC）任务Benchmark数据集SIGHAN介绍与预处理

中文文本挖掘处理流程

英文文本挖掘预处理流程总结

用gensim学习word2vec scikit-learn 和pandas 基于windows单机机器学习环境的搭建中文文本挖掘预处理流程总结

保存中文文本

自然语言处理--中文文本向量化counterVectorizer()

SnowNLP：中文文本处理Python库

自然语言处理 | (19) Python中文文本表示

深度学习|中文文本的分类（处理篇）

情感分析中文本数据预处理

python ：中英文文本预处理（包含去标点分词词干提取）

【Scikit-Learn 中文文档】预处理数据 - 数据集转换 - 用户指南 | ApacheCN

中文文本分类

中文文本分句

Keras文本预处理

文本预处理

NLP —— 文本预处理

Pytorch 文本预处理

中文自然语言处理--基于 Keras 的GRU 中文文本分类

中文自然语言处理--基于 Keras 的 LSTM中文文本分类

自然语言处理 | (7)中文文本基本任务与处理

【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN

中文文本数据结构化处理实例

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)