学Python一定要过的神奇坎---正则表达式（超详细）

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。
Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。
re 模块使 Python 语言拥有全部的正则表达式功能。

用正则表达式查找电话号码（\d在正则中表示0-9中任一数字）

用 import re 导入正则表达式模块
用re.compile()函数创建一个Regex对象
向Regex对象的search（）方法传入想查找的字符串。他返回一个Match对象（Match对象的group方法可获取search到的内容并返回）
调用Match对象的group（）方法，返回实际匹配的字符串

import re
geshi=re.compile(r'\d{11}')#\d 表示0-9任一数字，{11}表示这样的数字要有11个才行，如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\d
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码是：'+ phonenumber.group())

运行结果

D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
我的电话号码是：15673271781

进程已结束,退出代码0

这些貌似有点简单于是我去网页copy了一些电话号码建了个txt文档多查找一些
在这里插入图片描述

import re
import os
phonenumbe=re.compile(r'\d{4}-\d{8}|\d{11}')#竖杠”|“表示或的意思（or)
f=open ('D:\\recent\\code\\venv\\phone.txt','r',encoding='utf-8')
#打开文档phone.txt,'r'表示以只读模式打开，并转码为utf-8，txt打开默认gbk模式，
#我试了试gbk模式一旦有特殊字符就读不出来了
ph=f.read()#读取
mo=phonenumber.findall(ph)#在ph中查找并返回所有的满足phonenumbe格式的一个字符串列表
n=1
for i in mo:#遍历列表打印文本
    print('photonumber found '+str(n)+': ' + i)
    n+=1
f.close()

执行结果

D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test.py
photonumber found 1: 13738450312
photonumber found 2: 13362488361
photonumber found 3: 15862413006
photonumber found 4: 0574-87245828
photonumber found 5: 0574-56176485
photonumber found 6: 13056822332
photonumber found 7: 0574-86062413
photonumber found 8: 13968371215
photonumber found 9: 0574-87664179
photonumber found 10: 0574-89115294
photonumber found 11: 0574-62995006
photonumber found 12: 0574-62821458
photonumber found 13: 0574-88412332
photonumber found 14: 15957411508
photonumber found 15: 18267496379
photonumber found 16: 18058531330
photonumber found 17: 13777103739
photonumber found 18: 13454786113
photonumber found 19: 15824227808

进程已结束,退出代码0

then 继续学习…

- 匹配更多模式
在这里插入图片描述

利用括号分组（）
假设你只想我的电话号码尾号四位

这是上面代码
import re
geshi=re.compile(r'\d{11}')#\d 表示0-9任一数字，{11}表示这样的数字要有11个才行，如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\d
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码是：'+ phonenumber.group())

把上面的代码改一下（自己diy）

import re
geshi=re.compile(r'(\d{7})(\d{4})')
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码尾号四位是：'+ phonenumber.group(2))

执行结果

D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
我的电话号码尾号四位是：1781

进程已结束,退出代码0

如果想获取所有分组可以改成 phonenumber.groups()，他的类型是元组
最后一句要改成print( phonenumber.group(s))

D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
('1567327', '1781')

进程已结束,退出代码0

用管道匹配多个分组（符号 |）
前面有用到这个符号|，我理解的他就是or的意思

>>> import re
>>> bat=re.compile(r'Bat(man|mobile|copter|bat)')
>>> mo=bat.search('Batmobile lost a wheel')
>>> mo.group()
'Batmobile'
>>> mo.group(1)
'mobile'

用问号实现可选匹配
字符？表示他前面的分组在这个模式中是可选的

瞅瞅代码就明白啥意思了

>>> Bt=re.compile('super(wo)?man')
>>> mo=Bt.search('I am superman')
>>> mo.group()
'superman'
>>> mo=Bt.search('you are superwoman')
>>> mo.group()
'superwoman'

用星号 * 匹配零次或多次
即星号 * 之前的分组可以在文本中出现任意此
继续用上个例子来理解

>>> Bt=re.compile('super(wo)*man')#问号改成了星号
>>> mo=Bt.search('i am superwowowowowowowowowowoman')
>>> mo.group()
'superwowowowowowowowowowoman'

用加号+匹配一次或多次（备注：* 号是0到多次）

>>> Bt=re.compile('super(wo)+man')
>>> mo=Bt.search('i am superwowowowowowowowowowoman')
>>> mo.group()
'superwowowowowowowowowowoman'

用花括号{}匹配特定次数
super(wo){3}man表示 superwowowoman
上面用过了，这里详细解释一下
花括号还可以传入其它参数
super（wo）{3，5}man表示wo只要在min值-max值之间都可以被匹配到即3-5次之间

贪心和非贪心匹配
前面（wo）{3-5}可以匹配3，4或者5个wo，如果wo出现了5次，Match对象的group（）调用会返回
‘wowowowowowo’而不是‘wowowo’，这是为什么？

>>> Bt=re.compile(r'(wo){3,5}')
>>> mo1=Bt.search('wowowowowo')
>>> mo1.group()
'wowowowowo'#这里为啥不返回wowowo

python的正则表达式默认是’贪心‘的，这表示在有二义的情况下，它们会尽可能匹配最长的字符串。

那可能我就要问了，我就想它匹配最短的，这时候我们可以向python发起灵魂的质问：你为什么要那么贪心呢？
我们一质问他，他就不贪心了
我们通过在花括号后面加个问号？向他发起质问

>>> Bt=re.compile(r'(wo){3,5}?')
>>> mo1=Bt.search('wowowowowo')
>>> mo1.group()
'wowowo'

一看代码，他果真收敛了
在这里插入图片描述

findall（）方法，我前面也试过这个
Regex方法还有一个findall方法。
search（）返回一个对象，包含被查找字符串中第一次匹配的文本

findall（）方法将返回一组字符串列表包含被查找字符串中的所有匹配

search是这样的：

>>> import re
>>> wyphone=re.compile(r'\d{11}')
>>> phonenumber=wyphone.search('现在的手机号17682515555以前的手机号17682501111')
>>> phonenumber.group()
'17682515555'

findall是这样的

>>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')
['17682515555', '17682501111']

findall（）不用调用Match对象，直接返回列表

如果正则表达式中有分组，findall（）将返回元组的列表

>>> wyphone=re.compile(r'(\d{7})(\d{4})')
>>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')
[('1768251', '5555'), ('1768250', '1111')]

字符分类
前面学到了\d表示0-9的整数，那其它字符怎么表示？

缩写字符分类	表示
\d	0到9的任何数字
\D	除了0到9以外的任何字符
\w	任何字母、数字或下划线字符（可以认为是匹配“单词”字符
\W	除了字母、数字和下划线以外的任何字符
\s	空格、制表符或换行符（可以认为是匹配“空白”字符）
\S	除了空格、制表符和换行符以外的任何字符

建立自己的字符分类

方法很简单用中括号把你想要建立的字符分类包起来就好了

举个栗子

>>> yuanyin=re.compile(r'[aeiouAEIOU]')
>>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')
['a', 'a', 'o', 'u', 'e', 'i', 'u', 'i', 'u', 'i']

通过在前面加一个"^"符号，就可以得到非字符类

>>> yuanyin=re.compile(r'[^aeiouAEIOU]')
>>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')
['d', 'j', 'f', 'k', 'd', 'j', 'f', 'k', 'j', 'k', 'l', 'l', 'k', 'd', 'g', 'j', 'r', 'r', 't', 'r', 't']

插入字符和美元字符

在正则表达式开始处插入符号(^),表面匹配必须发生在被查找文本开始处
在正则表达式的末尾加上（$)符号，表示该字符串必须以这个正则表达式的模式结束

通配字符

.(句点）字符称为“通配符”，句点字符值匹配一个字符

>>> atgex=re.compile(r'..dog')
>>> atgex.findall('11dog 12dog 13dog')
['11dog', '12dog', '13dog']

>>> atgex=re.compile(r'.{2}dog')
>>> atgex.findall('11dog 12dog 13dog')
['11dog', '12dog', '13dog']

上面俩是一样的，因吹斯挺

要匹配真正的句点，要用反斜杠转义 \ .

用点星匹配所有字符（ .*）即任意文本

>>> nameregex=re.compile(r'firstname:(.*) lastname:(.*)')
>>> mo=nameregex.search('firstname:alen lastname:pyouthon')
>>> mo.group(1)
'alen'
>>> mo.group(2)
'pyouthon'
>>> mo.groups()
('alen', 'pyouthon')

.* 点星使用贪心模式：它总是匹配尽可能多的文本。要用“非贪心”模式匹配所有文本，就使用
.*? 点星问

>>> nr=re.compile(r'<.*?>')
>>> mo=nr.search('<to eat > more>')
>>> mo.group()
'<to eat >'

不用？号的话

>>> mo=nr.search('<to eat > more>')
>>> mo.group()
'<to eat > more>'

传入re.DOTALL 作为re.compile(）的第二个参数可以让句点字符匹配所有字符，包括换行字符

>>> nw=re.compile('.*')
>>> nw.search('srhakg. \n proto').group()
'srhakg. '

>>> nw2=re.compile('.*',re.DOTALL)
>>> nw2.search('srhakg. \n proto').group()
'srhakg. \n proto'

不区分大小写的匹配

向re.compile()传入 re.IGNORECASE或re.I ,作为第二个参数

>>> nw2=re.compile(r'dog',re.I)
>>> nw2.search('DOG').group()
'DOG'

用sub（）方法替换字符串

正则表达式不仅能找到文本模式，而且能够用新的文本特换掉这些模式
Regex对象的sub（）方法需要传入两个参数。第一个参数是一个字符串，用于取代发现的匹配。
第二个参数也是一个字符串，使用正则表达式匹配的内容
sub（）方法返回替换完成的字符串

>>> name=re.compile(r'Agent \w+')#表示匹配 Agent+空格+一个或者多个字符  遇到空格会停止
>>> name.sub('Bob','Agent Jack gave the book to Agent Alice')
'Bob gave the book to Bob'

在sub（）的第一个参数中可以输入\1,\2,\3…表示“在替换中输入分组1，2，3…的文本”

举个栗子
假设要隐去密探的姓名,只留首字母显示

>>> agentname=re.compile(r'agent (\w)\w*')
>>> agentname.sub(r'\1*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')
'B******* told J******* that E******* knew A******* was a double agent.'

上面的\1其实就是用regex对象的group（1）
如果我来反向操作一波，会变成咋样

>>> agentname=re.compile(r'agent (\w)(\w*)')#这里加了个分组
>>> agentname.sub(r'\2*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')
'ob******* told ack******* that ve******* knew len******* was a double agent.'

管理复杂的正则表达式

向re.compile()第二个参数传入re.VERBOSE,忽略正则表达式字符串中的空白符和注释
用r’’’ ‘’’ 多行然后再在里面加注释就好了

>>> ph=re.compile(r'''(\d{4}|\d{3})   #区号
... (\d{8}) #电话
... ''',re.VERBOSE)

Regex对象的参数只有两个，我要是re.VERBOSE，re.DOTALL， re.IGNORECASE都想用怎么办？

很简单，回到最初的原点，用竖杠（“|”）表示“或”就好了

以上就是今天学习正则表达式的全部笔记，希望也能帮到你，互勉

在这里插入图片描述

Pyouthon

发布了19 篇原创文章 · 获赞 7 · 访问量 870

私信关注

学Python一定要过的神奇坎---正则表达式（超详细）

以上就是今天学习正则表达式的全部笔记，希望也能帮到你，互勉

猜你喜欢