Python中re模块正则表达式详解

re.match()函数

re.match会从字符串的起始位置按模式匹配,如果匹配不成功,或是不是在起始位置匹配成功,就会返回None。匹配成功时返回一个匹配的对象,我们可以使用匹配对象函数来获取匹配表达式。

re.match(pattern, string, flags=0)

  • pattern:匹配的正则表达式
  • string:要匹配的字符串
  • flags:标志位,用于控制正则表达式的匹配方式,如是否区分大小写、是否多行匹配等。

re.I匹配时忽略字符串中的大小写。

import re

print(re.match('aa','Aaaabc',flags=re.I))    # 起始位置匹配
print(re.match('aa','bbaabc',flags=re.I))    # 不再起始位置匹配
# span()返回一个元组包含匹配开始和结束的位置
print(re.match('aa','Aaaabc',flags=re.I).span())

在这里插入图片描述
使用group(num)groups()匹配对象函数来获取匹配表达式。

  • group(num=0):根据输入的组号(多个组号),返回一个字符串(元组),元组中包含组号的对应值。默认为0,即返回match匹配到的所有内容。
  • groups():返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
line = "Cats are smarter than dogs"
matchObj = re.match(r'(.*) smarter (.*?) (.*)', line)

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(0, 1, 2, 3) : ", matchObj.group(0, 1, 2, 3))
    print("matchObj.groups() : ", matchObj.groups())
else:
    print("No match!!")
print(matchObj)

在这里插入图片描述


re.search()函数

re.search ()在整个字符串匹配并返回第一个成功的匹配。

re.search(pattern, string, flags=0)

print(re.search('aa','aaaabc').span())   # 在起始位置匹配
print(re.search('aa','bbaaac').span())    # 不在起始位置匹配
# NoneType对象没有span()
print(re.search('aa','bbaccc'))    # 匹配失败

运行结果:
(0, 2)
(2, 4)
None

matchsearch的不同之处很好理解,match是只匹配开头的字符串,如果匹配失败,后面的将不再匹配,直接返回None。而search是在整个字符串中匹配,如果起始位置没有匹配到,那么它会继续匹配剩余的字符串,直到第一次匹配成功,如果字符串结束都没有匹配成功,那么返回None


re.sub()函数

re.sub()函数可以将字符串中满足匹配条件的内容全部替换。

re.search(pattern, repl, string, count, flags=0)

  • repl:替换的字符串,可以是一个函数。
  • count:匹配成功后替换的最大次数,默认为0,表示替换所有的匹配。
line = '女朋友是女神'
print(re.sub(r'(?<=是).*', '仙女', line))

运行结果:
女朋友是仙女

配合lambda使用

line = 'A2B2C3'
print(re.sub(r'(\d+)', lambda x: str(int(x.group())*2), line))

运行结果:
A4B4C6

re.compile()函数

re.compile()用于编译正则表达式,生成一个正则表达式(Pattern)对象。

re.compile(pattern[, flags])

  • pattern:一个字符串形式的正则表达式。
pattern = re.compile(r'\d+')
print(pattern.match('one12twothree34four'))
print(pattern.match('one12twothree34four', 3, 10))

运行结果:
None
(3, 5)

re.findall()函数

re.findall()用于在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

re.findall(string[, pos[, endpos]])

  • string:待匹配的字符串。
  • pos:可选参数,指定字符串的起始位置,默认为0。
  • endpos:可选参数,指定字符串的结束位置,默认为字符串的长度。
pattern = re.compile(r'\d+')
print(pattern.findall('A1B2C3'))
print(pattern.findall('A1B2C3', 0, 4))

运行结果:
['1', '2', '3']
['1', '2']

re.finditer()函数

re.finditer()在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

result = re.finditer(r"\d+", "A1B2C3")
for match in result:
    print(match.group())

运行结果:
1
2
3

知识参考: 菜鸟教程

猜你喜欢

转载自blog.csdn.net/qq_43965708/article/details/113061983