Python学习笔记__11章正则表达式

# 这是学习廖雪峰老师python教程的学习笔记

1、正则表

\d	匹配一个数字
\w	匹配一个字母或数字
\s	可以匹配一个空格（也包括Tab等空白符）
.	匹配任意一个字符
*	表示重复前面的一个字符0次或多次（包括0个）例如：ab* will match ‘a’, ‘ab’, ‘abbbbb...’
？	表示0个或1个字符
{n}	表示n个字符
{n,m}	表示n-m个字符
\	转义字符， \\ 表示对\本身转义
[]	表范围，如[0-9a-zA-Z]
[][]	如[a-zA-Z\_][0-9a-zA-Z\_]：前面的[]匹配开头，后面的[] 匹配任意个字符
[][]{}	如[a-zA-Z\_][0-9a-zA-Z\_]：{0, 19}精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）
\|	表或，如A\|B可以匹配A或B，(P\|p)ython可以匹配'Python'或者'python'
^	匹配开头
$	匹配结尾
注意：	py也可以匹配'python'，但是加上^py$就变成了整行匹配，就只能匹配'py'了。类似于grep 和 grep -w的区别

2、re模块

Python提供re模块，包含所有正则表达式的功能。下面做一些练习

1）普通写法

>>> s = 'ABC\\-001'

>>> print(s)

ABC\-001

2）前缀写法

>>> s = r'ABC\-001' # 用r前缀，不用考虑转义的问题。类似于shell里的egrep，sed -r

>>> print(s)

ABC\-001

3）判断正则表达式是否匹配

>>> import re

# match()方法判断是否匹配。匹配成功，返回Match对象，匹配不成功，无显示。这里对-用了转义符，不用也行

>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

4）match()方法的if 判断

test = '用户输入的字符串'

if re.match(r'正则表达式', test):

print('ok')

else:

print('failed')

5）用正则切分字符串

>>> 'a b c'.split(' ') # 正常的代码无法识别连续的空格

['a', 'b', '', '', 'c']

>>> re.split(r'\s+', 'a b c') # 正则可以

['a', 'b', 'c']

6）分组

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345') #()里面的正则匹配的字符换就是一个组

>>> m

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

>>> m.group(0) # group(0)，表示整个字符串

'010-12345'

>>> m.group(1) # 表示第一组字符串

'010'

>>> m.group(2) # 表示第二组字符串

'12345'

>>> t = '19:05:30'

# 匹配时，分，秒。注意()里的|

>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)

>>> m.groups()

('19', '05', '30')

7）贪婪匹配

正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。

# (\d+)表示匹配多个数字，直接把数字匹配完了，没有给(0*)$匹配的机会

>>> re.match(r'^(\d+)(0*)$', '102300').groups()

('102300', '')

8）非贪婪匹配

让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配

# ^(\d+?)，尽可能少的匹配，给后面的(0*)$留下了匹配的空间

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()

('1023', '00')

2.1、编译

当我们在Python中使用正则表达式时，re模块内部会干两件事情：

编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
用编译后的正则表达式去匹配字符串。

如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配：

>>> import re

# 编译: 编译出的对象是类

>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')

# 使用：使用了类的match()方法

# 编译后生成Regular Expression对象，由于该对象自己包含了正则表达式，所以调用对应的方法时不用给出正则字符串。

>>> re_telephone.match('010-12345').groups() # 注意这个groups()，是显示整个字符串，前面用的是group()，group(1)

('010', '12345')

>>> re_telephone.match('010-8086').groups()

('010', '8086')

3、例题

1、写一个验证Email地址的正则表达式。版本一应该可以验证出类似的Email：

# -*- coding: utf-8 -*-

import re

def is_valid_email(addr):

if re.match(r'^[a-zA-Z.]+@[a-zA-Z.]+$',addr): #不写^ 和 $ 也没影响

return True

else:

return False

# 测试:

assert is_valid_email('[email protected]')

assert not is_valid_email('bob#example.com')

assert not is_valid_email('[email protected]')

print('ok')

2、版本二可以提取出带名字的Email地址：

<Tom Paris> [email protected] => Tom Paris

[email protected] => bob

# -*- coding: utf-8 -*-

import re

def name_of_email(addr):

# <?([a-zA-Z\s]+)>?，可以把名字匹配出来，注意里面的()。

# \s?[a-zA-Z]*?，对Tom而言，后面还需要匹配，而bob不需要，所以用的是[a-zA-Z]*?，* 表0个或多个字符。?让*别把后面的也匹配了

str = re.match(r'^<?([a-zA-Z\s]+)>?\s?[a-zA-Z]*?(@[a-zA-Z.]+)$',addr)

return str.group(1)

# 测试:

assert name_of_email('<Tom Paris> [email protected]') == 'Tom Paris'

assert name_of_email('[email protected]') == 'tom'

print('ok')

Python学习笔记__11章 正则表达式

猜你喜欢

Python学习笔记__11章正则表达式