【python爬虫学习笔记】06 正则表达式以及Re库入门

正则表达式及使用

正则表达式是用来简洁表达一组字符串的表达式
优势：简洁
编译：将符合正则表达式语法的字符串转换成正则表达式特征

表达文本类型的特征(病毒、入侵等)
同时查找或替换一组字符串
匹配字符串的部分或全部等

在这里插入图片描述

正则表达式的表示类型

在这里插入图片描述

标记	解释
re.I	忽略正则表达式的大小写,[A-Z]能够匹配小写字符
re.M	正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S	正则表达式中的.操作符能够匹配所有字符，默认匹配除行外的所有字符

re.match(pattern,string,flags=0)
从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall(pattern,string,flags=0)
搜索字符串，以列表类型返回全部能匹配的子串
re.split(pattern,string,maxsplit=0,flags=0)
将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
maxsplit:最大分割数，剩余部分作为最后一个元素输出
re.sub(pattern,repl,string,count=0,flags=0)
在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串
repl:替换匹配字符串的字符串
count:匹配的最大替换次数
regex = re.compile(pattern,flags=0)
将正则表达式的字符串形式编译成正则表达式对象

>>>match = re.search(r'PY.*N','PYANBNCNDN')
>>>>match.group(0)

输出：‘PYANBNCNDN’

>>>match = re.search(r'PY.*?N','PYANBNCNDN')
>>>match.group(0)

输出：‘PYAN’