python正则表达式提取/过滤字符串中的数字

文章目录

背景

  • 训练文本分类模型 需要对文本中的数字、特殊符号预处理

思路

1 既然是提取数字,那么数字的形式一般是:整数,小数,整数加小数;

2 所以一般是形如:----.-----;

3 根据上述正则表达式的含义,可写出如下的表达式:"\d+.?\d*";

4 \d+匹配1次或者多次数字,注意这里不要写成*,因为即便是小数,小数点之前也得有一个数字;.?这个是匹配小数点的,可能有,也可能没有;\d*这个是匹配小数点之后的数字的,所以是0个或者多个

code

# -*- coding: cp936 -*-
import re
 
string="A1.45,b5,6.45,8.82"
print(re.findall(r"\d+\.?\d*",string))  # 查找
# ['1.45', '5', '6.45', '8.82']
res = re.sub(r"\d+\.?\d*", "", string)  # 过滤
  • 其他 类似:
  • 如 过滤中英文标点和特殊符号
  • 过滤换行符等特俗符号
# 替换 空格 \t \r \n
import re
 
str1='123  456  7\t8\r9\n10'
str1 = re.sub('[\s+]', '', str1)
print(str1)

猜你喜欢

转载自blog.csdn.net/m0_38024592/article/details/113667274