【Python自学笔记】爬虫自学之正则表达式的使用


正则表达式

正则表达式常用符号

正则表达式符号

  • . 符号在添加参数:re.DOTALL 或 re.S 的时候可以匹配换行符
  • 我们在写爬虫的时候最常用的符号是 .*?,其中 ? 表示非贪婪。还有原始字符串 r 的使用
  • re.sub 替换,具体用法参照下面例子:
    re.sub
  • re.compile的用法,参照下图示例
    re.compile
  • 正则表达式括号的使用,表示提取括号内匹配到的内容,见示例
    正则表达式括号

正则表达式小结

  • 更多免费分享请点击这里
  • 爬虫中最常用的正则表达式是: re.findall(r"a(.*?)b","str"),能够返回括号中匹配到的内容,其中a和b起到了定位的效果
    • 原始字符串r的作用:但待匹配的字符串中有反斜杠,使用r能够忽视反斜杠带来的转移效果
    • 点号默认情况匹配不到\n
    • \s能够匹配空白字符,不仅仅包含空格,还有\t\r\n
发布了47 篇原创文章 · 获赞 1 · 访问量 1204

猜你喜欢

转载自blog.csdn.net/xiaoqiangclub/article/details/104171168
今日推荐