Python3.5从0开始学读书笔记——第十一章正则表达式

认识正则表达式

正则表达式是一个特殊字符序列，能够帮助用户检查一个字符串是否与某种格式匹配，从而达成快速检索或替换某个格式、规则的文本。Python自1.5版本增加了re模块。

表1：特殊字符在正则表达式中的应用

实例	描述
.	匹配除了“\n”之外的任何字符。如果要匹配包括“\n”的任意字符，请使用如‘[.\n]’的模式
\d	匹配一个数字字符，等价于[0-9]
\D	匹配一个非数字字符，等价于[^0-9]
\s	匹配任意空白字符，包括空格、制表符、换页符等。等价于[\f\n\r\t\v]
\S	匹配任意非空白字符，等价于[^\f\n\r\t\v]
\w	匹配包括下划线的任意单词字符，等价于[A-Za-z0-9_]
\W	匹配任意非单词字符，等价于[^A-Za-z0-9_]

表2：字符类在正则表达式中的作用

实例	描述
[Pp]ython	匹配Python和python
rub[ye]	匹配ruby和rube
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任意数字，类似于[0123456789]
[a-z]	匹配任意小写字母
[A-Z]	匹配任意大写字母
[a-zA-Z0-9]	匹配任意大写字母小写字母数字
[^aeiou]	除了aeiou字母以下的所有字符
[^0-9]	匹配除了数字外的字符

在正则表达式中，如果直接给出字符，就是精确匹配。从表1可知，用\d可以匹配一个数字，用\w可以匹配一个数字或字母。例如：

‘00\d’可以匹配’007’，但无法匹配’00q’
‘\d\d\d’可以匹配’123’
‘\w\w\d’可以匹配’py3’
.可以匹配任意字符，所以’py.‘可以匹配’pyc’‘pyo’'py!'等

在正则表达式中，要匹配变长的字符，可以用*表示任意个数的字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符，用{n}表示n个字符，用{n,m}表示n-m个字符。下面来看一个复杂的例子。

\d{3}\s+\d{3,8}

长度是3的数字，如：010；至少1个空白字符；3到8个数字，如：‘1234567’，综上所述，正则表达式可以匹配以任意个数的空格隔开的带区号的电话号码。

如果要匹配’010-12345’这样的号码呢？由于‘-’是特殊字符，正则表达式中用’\'转义，因此用正则表达式可以表示为：

\d{3}\-\d{3,8}

要更精确的匹配，可以用[]表示范围。例如：

[0-9a-zA-Z_]可以匹配数字、字母或下划线。
[0-9a-zA-Z_]+可以匹配至少有一个数字、字母或下划线组成的字符串。
[a-zA-Z_][0-9a-zA-Z_]*可以匹配由大小写字母下划线开头，后面接任意个数的数字大小写字母及下划线组成的字符串。也就是python的合法变量。
[a-zA-Z][0-9a-zAO-Z_]{0,19}同上，只是更精确的限制了变量的长度个数是1-20个字符（前面1个字符加后面19个字符）
A|B用于匹配A或B
^{表示行的开头，}\d表示必须以数字开头
$表示表示行的结束，\d$表示必须以数字结束。

正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式：

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r’\t’，等价于 ‘\t’)匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	精确匹配 n 个前面表达式。例如， o{2} 不能匹配 “Bob” 中的 “o”，但是能匹配 “food” 中的两个 o。
re{ n,}	匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。“o{1,}” 等价于 “o+”。“o{0,}” 则等价于 “o*”。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (…), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#…)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
\B	匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
\n, \t, 等.	匹配一个换行符。匹配一个制表符。等
\1…\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

RE模块

re.match()函数

re.math()函数尝试从字符串的起始位置匹配一个模式，语法格式如下：

re.match(pattern,string,flag=0)

函数参数说明：pattern指匹配的正则表达式；string要匹配的字符串；flag为标志位，用于控制正则表达式的匹配方式，如是否区分大小写，多行匹配等。

如果匹配成功，re.match()方法就返回一个匹配的对象，否则返回None。

正则表达式对象

re.RegexObject

re.compile() 返回 RegexObject 对象。

re.MatchObject

group() 返回被 RE 匹配的字符串。

start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置

示例如下：

#! /usr/bin/python3
# -*- coding:UTF-8 -*-
import re
#re.match()只匹配字符串开始的字符，如果开始的字符串不符合正则表达式，就返回None
print('re.match(\'hello\',\'hello world\') = ',re.match('hello','hello world'))
#span()函数返回一个元组,表示匹配的区间，左闭又开
#起始位置匹配
print('re.match(\'hello\',\'hello world\').span() = ',re.match('hello','hello world').span())
#非起始位置匹配
print('re.match(\'world\',\'hello world\') = ',re.match('world','hello world'))

输出：

re.match('hello','hello world') =  <_sre.SRE_Match object; span=(0, 5), match='hello'>
re.match('hello','hello world').span() =  (0, 5)
re.match('world','hello world') =  None

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志，re.M|re.I：这两参数表示多行匹配|不区分大小写，同时生效。

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

匹配对象方法

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。编号0代表整个匹配的字符串，不填写参数时，返回group(0)；没有匹配项时，返回None；多次匹配成功后，返回最后一次匹配成功的字符串。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

re.search()方法

re.search()方法用于扫描整个字符串，并返回第一个成功匹配的字符。语法格式如下：

re.search(pattern,string,flag=0)

函数参数说明：pattern指匹配的正则表达式；string要匹配的字符串；flag为标志位，用于控制正则表达式的匹配方式，如是否区分大小写，多行匹配等。

如果匹配成功，re.match()方法就返回一个匹配的对象，否则返回None。示例如下：

#re.search(),匹配整个字符串，直到找到一个匹配的对象，匹配结束后没有找到匹配值才返回None
#起始位置匹配
print('re.search(\'hello\',\'hello world\').span() = ',re.search('hello','hello world').span())
#非起始位置匹配
print('re.search(\'world\',\'hello world\').span() = ',re.search('world','hello world').span())

输出：

re.search('hello','hello world').span() =  (0, 5)
re.search('world','hello world').span() =  (6, 11)

re.match()与re.search()的区别

函数名	作用
re.match()	只匹配字符串开始的字符，如果开始的字符不符合正则表达式，就返回None
re.sarch()	匹配整个字符串，直到找到一个匹配的对象，匹配结束后仍不符合，才返回None

示例如下：

#RE模块示例
line = 'cats are smarter than dogs'
matchobj = re.match(r'dogs',line,re.M|re.I)
if matchobj:
    print('使用match，匹配的字符串是：',matchobj.group())
else:
    print('没有匹配项')
matchobj = re.search(r'dogs',line,re.M|re.I)
if matchobj:
    print('使用search，匹配的字符串是：',matchobj.group())
    print('第一个匹配的字符串是：',matchobj.group(0))
    #下面为什么是空？
    print('使用search，全部匹配的字符串是：',matchobj.groups())
    print('一共匹配了%s个元素' % len(matchobj.groups()))
    for matchstr in matchobj.groups():
        print('matchstr is ',matchstr)
else:
    print('没有匹配项')

输出：

没有匹配项
使用search，匹配的字符串是： dogs
第一个匹配的字符串是： dogs
使用search，全部匹配的字符串是： ()
一共匹配了0个元素

贪婪模式和非贪婪模式

Python里数量词默认是贪婪的（在少数语言里也默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪模式正好相反，总是尝试匹配尽可能少的字符。

示例：

#贪婪模式
print(re.match(r'^(\d+)(0*)$','102300').groups())
#非贪婪模式
print(re.match(r'^(\d+?)(0*)$','102300').groups())
#贪婪模式,匹配尽可能多的字符
print(re.match(r'ab*','abbbbbc').span())
#非贪婪模式，匹配0到1个字符
print(re.match(r'ab*?','abbbbbc').span())

输出：

('102300', '')
('1023', '00')
(0, 6)
(0, 1)

编译

当在Python中使用正则表达式时，re模块会做以下两下事情：

编译正则表达式，如果正则表达式的字符串本身不合法，就会报错。
用编译后的正则表达式匹配字符串。

如果一个正则表达式需要出现很多次，处于效率的考虑，我们可以预编译这个正则表达式。这样重复使用时，就不会重复编译的动作，直接匹配即可。示例如下：

telReg = re.compile(r'^(\d{3})-(\d{3,8})$')
print(telReg.match('010-1234567').groups())
def printTel(tels):
    i = 0
    for tel in telReg.match('010-1234567').groups():
        i += 1
        print('part%d of tel = %s' % (i, tel))
printTel(telReg.match('010-1234567').groups())
print(telReg.match('010-123').groups())

输出：

('010', '1234567')
part1 of tel = 010
part2 of tel = 1234567
('010', '123')

检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：

re.sub(pattern, repl, string, count=0, flags=0)

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

示例如下：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print "电话号码是: ", num
 
# 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone)
print "电话号码是 : ", num

以上实例执行结果如下：

电话号码是:  2004-959-559 
电话号码是 :  2004959559

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘以 2：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

执行输出结果为：

A46G8HFD1134