Python爬虫速成------正则表达式及re库

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式

常用操作符

经典正则表达式实例

IP地址的精确写法

0‐99： [1‐9]?\d

100‐199: 1\d{2}

200‐249: 2[0‐4]\d

250‐255: 25[0‐5]

(([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5]).){3}([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5])

Re库

re库采用raw string类型表示正则表达式，表示为：r’text’

建议：当正则表达式包含转义符时，使用raw string

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

re.search(pattern, string, flags=0)在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

re.match(pattern, string, flags=0)从一个字符串的开始位置起匹配正则表达式，返回match对象

re.findall(pattern, string, flags=0)搜索字符串，以列表类型返回全部能匹配的子串

re.split(pattern, string, maxsplit=0, flags=0)将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

re.finditer(pattern, string, flags=0)搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

re.sub(pattern, repl, string, count=0, flags=0)在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

regex = re.compile(pattern, flags=0)将正则表达式的字符串形式编译成正则表达式对象

Re库的另一种等价用法

函数	说明
`regex.search()`	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
`regex.match()`	从一个字符串的开始位置起匹配正则表达式，返回match对象
`regex.findall()`	搜索字符串，以列表类型返回全部能匹配的子串
`regex.split()`	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
`regex.finditer()`	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
`regex.sub()`	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

Re库的Match对象

Match对象是一次匹配的结果，包含匹配的很多信息

In[43]: match=re.match(r'[A-Z]+', 'Start HBU河北大学简称HBU')
In[44]: type(match)
Out[44]: re.Match

Match对象的属性

Match对象的方法

最小匹配操作符

regex