Python中re模块正则表达式详解

re.match()函数

re.match会从字符串的起始位置按模式匹配，如果匹配不成功，或是不是在起始位置匹配成功，就会返回None。匹配成功时返回一个匹配的对象，我们可以使用匹配对象函数来获取匹配表达式。

re.match(pattern, string, flags=0)

pattern：匹配的正则表达式
string：要匹配的字符串
flags：标志位，用于控制正则表达式的匹配方式，如是否区分大小写、是否多行匹配等。

如re.I匹配时忽略字符串中的大小写。

import re

print(re.match('aa','Aaaabc',flags=re.I))    # 起始位置匹配
print(re.match('aa','bbaabc',flags=re.I))    # 不再起始位置匹配
# span()返回一个元组包含匹配开始和结束的位置
print(re.match('aa','Aaaabc',flags=re.I).span())

在这里插入图片描述
使用group(num)或groups()匹配对象函数来获取匹配表达式。

group(num=0)：根据输入的组号（多个组号），返回一个字符串（元组），元组中包含组号的对应值。默认为0，即返回match匹配到的所有内容。
groups()：返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

line = "Cats are smarter than dogs"
matchObj = re.match(r'(.*) smarter (.*?) (.*)', line)

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(0, 1, 2, 3) : ", matchObj.group(0, 1, 2, 3))
    print("matchObj.groups() : ", matchObj.groups())
else:
    print("No match!!")
print(matchObj)

在这里插入图片描述

re.search()函数

re.search ()在整个字符串匹配并返回第一个成功的匹配。

re.search(pattern, string, flags=0)

print(re.search('aa','aaaabc').span())   # 在起始位置匹配
print(re.search('aa','bbaaac').span())    # 不在起始位置匹配
# NoneType对象没有span()
print(re.search('aa','bbaccc'))    # 匹配失败

运行结果：
(0, 2)
(2, 4)
None

match与search的不同之处很好理解，match是只匹配开头的字符串，如果匹配失败，后面的将不再匹配，直接返回None。而search是在整个字符串中匹配，如果起始位置没有匹配到，那么它会继续匹配剩余的字符串，直到第一次匹配成功，如果字符串结束都没有匹配成功，那么返回None。

re.sub()函数

re.sub()函数可以将字符串中满足匹配条件的内容全部替换。

re.search(pattern, repl, string, count, flags=0)

repl：替换的字符串，可以是一个函数。
count：匹配成功后替换的最大次数，默认为0，表示替换所有的匹配。

line = '女朋友是女神'
print(re.sub(r'(?<=是).*', '仙女', line))

运行结果：
女朋友是仙女

配合lambda使用

line = 'A2B2C3'
print(re.sub(r'(\d+)', lambda x: str(int(x.group())*2), line))

运行结果：
A4B4C6

re.compile()函数

re.compile()用于编译正则表达式，生成一个正则表达式（Pattern）对象。

re.compile(pattern[, flags])

pattern：一个字符串形式的正则表达式。

pattern = re.compile(r'\d+')
print(pattern.match('one12twothree34four'))
print(pattern.match('one12twothree34four', 3, 10))

运行结果：
None
(3, 5)

re.findall()函数

re.findall()用于在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

re.findall(string[, pos[, endpos]])

string：待匹配的字符串。
pos：可选参数，指定字符串的起始位置，默认为0。
endpos：可选参数，指定字符串的结束位置，默认为字符串的长度。

pattern = re.compile(r'\d+')
print(pattern.findall('A1B2C3'))
print(pattern.findall('A1B2C3', 0, 4))

运行结果：
['1', '2', '3']
['1', '2']

re.finditer()函数

re.finditer()在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

result = re.finditer(r"\d+", "A1B2C3")
for match in result:
    print(match.group())

运行结果：
1
2
3

知识参考： 菜鸟教程