Python正则表达式的学习

写这篇文章的目的

在自己平时学习的过程中常常会遇到从大量的返回数据中匹配到具体信息的问题，要解决这个问题，使用正则表达式则是一种很好的解决方法。正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。通过这种方法，来给我们匹配并且反馈出想要的东西，便于进行下一步的操作。

总结来说：
正则表达式最主要的功能：搜索，替换
正则表达式非常适合处理文本
正则表达式语言用来构造正则表达式
正则表达式用来完成搜索替换的操作

我把这篇文章作为我的学习笔记来用，对正则表达式的学习和分享也是不值一提，内容包括我平时常用的一些比较基本的操作，如果具体把正则表达式东西讲完，一来我确实没有这个能力，二来能解决问题就好，毕竟这篇文章的出身就是学习笔记，当然也希望能帮到像我一样的入门级玩家。

常用的一些函数

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。这里刚开始学习要特别注意的点就是，他是从起始位置开始匹配，第一个字符不匹配的话，后面就不会在进行匹配，直接返回none

函数语法：re.match("匹配的正则表达式", "要匹配的字符串", flags=0)

flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和' # '后面的注释

re.search()

re.search("匹配的正则表达式", "要匹配的字符串", flags=0)

re.search 扫描整个字符串并返回第一个成功的匹配。

re.match与re.search的区别：re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

检索和替换

re.sub()

Python 的re模块提供了re.sub用于替换字符串中的匹配项。
语法：
re.sub(“正则中的模式字符串”, “替换的字符串”, “要被查找替换的原始字符串”, count=0, flags=0)

count=0 模式匹配后替换的最大次数，默认0表示替换所有的匹配flags：编译时用的匹配模式，数字形式这样看的话不容易理解

举个例子：

#!/usr/bin/python3
import rephone = "2004-959-559 # 这是一个电话号码"
#删除注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)
# 移除非数字的内容
num = re.sub(r'\D', "", phone) #\D是匹配所有非数字
print ("电话号码 : ", num)

运行结果：
电话号码 : 2004-959-559
电话号码 : 2004959559

re.split()

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(“匹配的正则表达式”, “匹配的字符串”)

举例：

>>> re.split(r'\s+', 'a b c')
['a', 'b', 'c']

无论多少个空格都可以正常分割，加入，试试再加入;试试：

>>> re.split(r'[\s\,]+', 'a,b, c d')
['a', 'b', 'c', 'd']
>>> re.split(r'[\s\,\;]+', 'a,b;; c d')
['a', 'b', 'c', 'd']

编译：

当我们在Python中使用正则表达式时，re模块内部会干两件事情：

编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
用编译后的正则表达式去匹配字符串。

如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配：

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用：
>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()('010', '8086')

编译后生成Regular Expression对象，由于该对象自己包含了正则表达式，所以调用对应的方法时不用给出正则字符串。

贪婪匹配

最后需要特别指出的是，正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。举例如下，匹配出数字后面的0：

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0* 能匹配空字符串了。必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配：

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()('1023', '00')

正则表达式模式

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.点	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	匹配n个前面表达式。例如，"o{2}"不能匹配"Bob"中的"o"，但是能匹配"food"中的两个o。
re{ n,}	精确匹配n个前面表达式。例如，"o{2,}"不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有o。"o{1,}"等价于"o+"。"o{0,}"则等价于"o*"。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功。
(?> re)	匹配的独立模式，省去回溯。
\w	匹配数字字母下划线
\W	匹配非数字字母下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f]。
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]。
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等。	匹配一个换行符。匹配一个制表符, 等
\1...\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

正则表达式实例

字符匹配

实例	描述
python	匹配 "python".

字符类

实例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

特殊字符类

实例	描述
.点	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

正则表达式中 [] 和 () 的区别

圆括号 () 是组，主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理。

示例：
1、(abc|bcd|cde)：表示这一段是abc、bcd、cde三者之一均可，顺序也必须一致。
2、(abc)?：表示这一组要么一起出现，要么不出现，出现则按此组内的顺序出现。
3、(?:abc)：表示找到这样abc这样一组，但不记录，不保存到$变量中，否则可以通过$x取第几个括号所匹配到的项，比如：(aaa)(bbb)(ccc)(?:ddd)(eee)，可以用 $1 获取 (aaa) 匹配到的内容，而 $3 则获取到了 (ccc) 匹配到的内容，而 $4 则获取的是由 (eee) 匹配到的内容，因为前一对括号没有保存变量。
4、a(?=bbb)：顺序环视表示 a 后面必须紧跟 3 个连续的 b。
5、(?i:xxxx)：不区分大小写 (?s:.*) 跨行匹配.可以匹配回车符。

方括号 [] 是单个匹配，字符集/排除字符集/命名字符集。

示例：
1、[0-3]：表示找到这一个位置上的字符只能是 0 到 3 这四个数字，与 (abc|bcd|cde) 的作用比较类似，但圆括号可以匹配多个连续的字符，而一对方括号只能匹配单个字符。
2、[^0-3]：表示找到这一个位置上的字符只能是除了 0 到 3 之外的所有字符。

() 和 [] 有本质的区别

() 内的内容表示的是一个子表达式，() 本身不匹配任何东西，也不限制匹配任何东西，只是把括号内的内容作为同一个表达式来处理，例如 (ab){1,3}，就表示 ab 一起连续出现最少 1 次，最多 3 次。如果没有括号的话，ab{1,3} 就表示 a，后面紧跟的 b 出现最少 1 次，最多 3 次。另外，括号在匹配模式中也很重要。这个就不延伸了，有兴趣可以自己查查。

[] 表示匹配的字符在 [] 中，并且只能出现一次，并且特殊字符写在 [] 会被当成普通字符来匹配。例如 [(a)]，会匹配 (、a、)、这三个字符。所以 ()、[] 无论是作用还是表示的含义，都有天壤之别。

D-R0s1

发布了65 篇原创文章 · 获赞 58 · 访问量 8万+

私信关注