python学习笔记--正则表达式

正则表达式描述了一种字符串匹配模式
先贴出常用正则表达式元字符:

在这里插入图片描述
代码示例:`

import re
s = 'total income is around $750,000, ended with 3000'

反斜杠\

print(re.findall('\$',s))
>>>['$']

\d即[0-9]

print(re.findall('\d',s))
>>>['7', '5', '0', '0', '0', '0', '3', '0', '0', '0']

+ 等价于 {1,正无穷}

print(re.findall('i+',s))
>>>['i', 'i', 'i']
print(re.findall('0+',s))
>>>['0', '000', '000']

* 等价于 {0,正无穷}

print(re.findall('i*',s))
>>>['', '', '', '', '', '', 'i', '', '', '', '', '', '', 'i', '', '', '', '', '', '', '', '', '', 
'', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'i', '', '', '', '', '', '', '', '']
print(re.findall('0*',s))
>>>['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '0',
> '', '000', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '000', '']

等价于 {0,1}

print(re.findall('0?',s))
>>>['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '0',
>'', '0', '0', '0', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '0', '0', '0','']

. 通常用来获取外链

print(re.findall('.',s))
>>>['t', 'o', 't', 'a', 'l', ' ', 'i', 'n', 'c', 'o', 'm', 'e', ' ', 'i', 's', ' ', 'a', 'r', 'o', 'u', 'n', 'd', 
' ', '$', '7', '5', '0', ',', '0', '0', '0', ',', ' ', 'e', 'n', 'd', 'e', 'd', ' ', 'w', 'i', 't', 'h', ' ', 
'3', '0', '0', '0']

s1 = '<a href="https://www.baidu.com">Baidu</a>'
print(re.findall('href=\".*\"',s1))
>>>['href="https://www.baidu.com"']

() 一种筛选规则,匹配时按照整体正则匹配,输出时只保留括号内的内容

print(re.findall('href=\"(.*)\"',s1))
>>>['https://www.baidu.com']

贪婪模式
贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为,贪婪模式在整个表达式匹配成功的前提下,尽可能多的匹配,而非贪婪模式在整个表达式匹配成功的前提下,尽可能少的匹配
例:

import re
s = 'chinahadoop'
s1 = '<a href="https://www.baidu.com">Baidu</a>'

贪婪模式:

print(re.findall('.*(h.*a).*',s)[0])
>>>ha

非贪婪模式:

print(re.findall('.*?(h.*?a).*',s)[0])
>>>hina

前面不加?会尽可能的匹配即会一直匹配到第二个h
后面不加?会匹配到最后一个a
另外,python的正则表达式没有完全按照正则表达式规范实现,所以一些高级特性建议使用其他语言如java、scala等

猜你喜欢

转载自blog.csdn.net/qq_43813560/article/details/88430669