Python RegEx（正则表达式）

文章目录

RegEx模块
RegEx函数

findall()
search()
finditer()
split()
sub()

compile函数
re.match 与 re.search的区别
正则表达式模式及实例

元字符
特殊序列
集合（set）

RegEx或正则表达式是形成搜索模式的字符序列

RegEx可用于检查字符串是否包含指定的搜索模式

RegEx模块

python提供名为 re 的内置包，可用于处理正则表达式。
导入re模块

import re

导入RegEx模块后，就可以使用正则表达式了：
实例
检索字符串以查看它是否以“China”开头并以“county”结尾：

import re

txt = "China is a great country"
x = re.search("^China.*country$", txt)
if(x):
    print("YES! We have a match")
else:
    print("No match");

RegEx函数

re模块提供了一组函数，允许我们检索字符串以进行匹配：

findall()

返回包含所有匹配项的列表

实例：
打印所有匹配的列表：

import re

str = "China is a great country"
x = re.findall("a", str)
print(x)

在这里插入图片描述
这个列表以被找到的顺序包含匹配项。
如果未找到匹配项，返回空列表：

import re
str = "I want to go to school"
x = re.findall("KK", str)
print(x)

在这里插入图片描述

search()

如果字符串中的任意位置存在匹配，则返回Match对象
如果有多个匹配，则返回首个匹配项

search()函数搜索

import re
str = "I want to go to school"
x = re.search("\s", str)#返回字符串包含空白字符的匹配项
print("The first white-space character is located in position:", x.start())

在这里插入图片描述
如果未找到匹配，返回值None:

import re

str = "China is a great country"

x = re.search("English", str)
print(x)

在这里插入图片描述

finditer()

和findall类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回

import re
str  = re.finditer(r"\d+","I18 want15 to13 go15 to school")#\d返回的是数字
for match in str:
    print(match.group())

在这里插入图片描述

split()

返回一个列表，其中字符串在每次匹配时被拆分

实例：在每个空白字符处进行拆分

import re

str = "I want to go to school"
x = re.split("\s", str)
print(x)

在这里插入图片描述
可以通过指定maxsplit参数来控制出现次数：

实例

仅在首次出现时拆分字符串：

import re
str = "I want to go to school"
x = re.split("\s", str, 1)
print(x)

在这里插入图片描述

sub()

re.sub(pattern, repl, string, count=0, flags=0)
用字符串替换一个或多个匹配项,就是把匹配替换为所选文本

实例

用数字8替换每个空白字符

import re

str = "I want to go to school"
x = re.sub("\s", "8", str)
print(x)

在这里插入图片描述

通过count 参数来控制替换次数

import re

str = "I want to go to school"
x = re.sub("\s", "8", str, 2)#只将两个空白符换为8
print(x)

在这里插入图片描述
Match对象
Match 对象是包含有关搜索和结果信息的对象

注释：如果没有匹配，返回值None,而不是Match对象

import re

str = "I want to go to school"
x = re.search("a", str)
print(x)#打印一个对象

在这里插入图片描述
Match()对象提供了用于取回有关搜索及结果信息的属性和方法：

span()返回的元组包含了匹配的开始和结束位置
string()返回传入函数的字符串
group()返回匹配的字符串部分，group也包含三个部分

start()返回匹配开始的位置
end()返回匹配结束的位置
span()返回一个元组包含匹配(开始，结束)的位置

实例
打印首个匹配出现的位置（start, end）
正则表达式查找以大写“W”开头的任何单词：

import re

str = "I Want to go to school"
x = re.search(r"\bW\w+", str)#\b是返回指定字符位于单词的开头或末尾的匹配项
print(x.span())

在这里插入图片描述
实例
打印传入函数的字符串：


import re

str = ""I Want to go to school"
x = re.search(r"\bW\w+", str)
print(x.string)

在这里插入图片描述
实例
打印匹配的字符串部分
正则表达式查找以写“W”开头的任何单词

import re
str = "I Want to go to school, the World is so quite"
x = re.search(r"\bW\w+", str)
print(x.group)

在这里插入图片描述
如果没有匹配项，则返回值None,而不是Match对象

compile函数

compile函数用于编译正则表达式，生成一个正则表达式（pattern）对象，供match()和search()这两个函数使用。

import re
pattern = re.compile(r'\d+')
str = pattern.match("24Kobe Jodan23")#match查找头部
print(str)
str1 = pattern.search("Jodan23")
print(str1)

在这里插入图片描述

re.match 与 re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None;而re.search匹配整个字符串，知道找到一个匹配。

import re

str = "I want to go to school"
matchobj = re.match(r"to", str)
if matchobj:
   print ("match --> matchobj.group() : ", matchobj.group())
else:
   print ("No match!!")

matchobj = re.search(r"to", str)
if matchobj:
   print ("search--> matchobj.group() : ", matchobj.group())
else:
   print ("No match!!")