正则表达式
- 更多免费分享请点击这里
- 什么是正则表达式
- 其中
find.all
是我们最常用的一个方法
正则表达式常用符号
.
符号在添加参数:re.DOTALL 或 re.S
的时候可以匹配换行符- 我们在写爬虫的时候最常用的符号是
.*?
,其中 ? 表示非贪婪。还有原始字符串 r 的使用 re.sub
替换,具体用法参照下面例子:
re.compile
的用法,参照下图示例
- 正则表达式括号的使用,表示提取括号内匹配到的内容,见示例
正则表达式小结
- 更多免费分享请点击这里
- 爬虫中最常用的正则表达式是:
re.findall(r"a(.*?)b","str")
,能够返回括号中匹配到的内容,其中a和b起到了定位的效果- 原始字符串r的作用:但待匹配的字符串中有反斜杠,使用r能够忽视反斜杠带来的转移效果
- 点号默认情况匹配不到
\n
\s
能够匹配空白字符,不仅仅包含空格,还有\t\r\n