Python正则表达式做文本预处理，去掉特殊符号 - 代码天地

Python正则表达式做文本预处理，去掉特殊符号

其他 2018-11-16 15:15:56 阅读次数: 0

在进行文本训练和处理之前难免要进行下预处理，过滤掉没有用的符号等，简单用python 的正则表达式过滤一下。

#!/usr/bin/python
# encoding: UTF-8
import re

# make English text clean
def clean_en_text(text):
    # keep English, digital and space
    comp = re.compile('[^A-Z^a-z^0-9^ ]')
    return comp.sub('', text)

# make Chinese text clean
def clean_zh_text(text):
    # keep English, digital and Chinese
    comp = re.compile('[^A-Z^a-z^0-9^\u4e00-\u9fa5]')
    return comp.sub('', text)

if __name__ == '__main__':
    text_en = '$How old are you? Could you give me your pen?'
    text_zh = '$你好！我是个程序猿，标注码农￥'
    print(clean_en_text(text_en))
    print(clean_zh_text(text_zh))

猜你喜欢

转载自blog.csdn.net/lwc5411117/article/details/84109580

Python正则表达式做文本预处理，去掉特殊符号

正则表达式特殊符号

iOS 正则表达式去除特殊符号

正则表达式和特殊符号

day 17 特殊符号与正则表达式

正则表达式中的特殊符号及实例

javascript正则表达式匹配特殊符号

正则表达式的特殊符号

Linux之特殊符号与正则表达式

特殊符号正则表达式

Linux特殊符号与正则表达式

JS正则表达式之特殊符号

Python3 正则表达式特殊符号及用法（详细列表）

【转】Python3 正则表达式特殊符号及用法（详细列表）

JS 正则表达式控制文本框只能输入中文、英文、数字与指定特殊符号

python正则表达式去掉中文文本的符号

系统常见特殊符号、通配符、正则表达式

Day004_Linux基础命令之特殊符号与正则表达式通配符

linux中的正则表达式中特殊符号

linux内特殊符号、通配符、正则表达式

正则表达式转义所有特殊符号

正则表达式中特殊符号及代表的含义

Python 用正则表达式一次替换文章中所有特殊符号，如“-,$()#+&*”之类

正则表达式符号及特殊用法

【关于正则表达式的特殊符号的处理】之前自己在提取一个表达式一直提取不到，后来解决了，记录下知识点

js中用正则表达式过滤特殊字符 ,校验所有输入域是否含有特殊符号

js中用正则表达式过滤特殊字符校验所有输入域是否含有特殊符号

Java处理正则表达式特殊字符转义

java正则表达式处理特殊字符

Perl正则表达式(3) - 用正则表达式处理文本

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)