正则表达式
BeautifulSoup
Lxml
PyQuery
CSSselector
好了,开始我们的解析之旅吧!
扫描二维码关注公众号,回复:
293295 查看本文章
先用正则语法定义一个规则(pattern)
然后用这个规则与你download的网页字符串进行对比,根据pattern提取你想要的数据。
好了,让我们看看Python正则表达式的语法
:
re模块核心函数
上面简单的介绍了正则表达式的pattern
是如何设置的,那么下一步我们就可以开始我们的提取工作了。在Python的re模块
中有几个核心的函数
专门用来进行匹配和查找。
使用预编译的代码对象比直接使用字符串要快,因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象。同样的概念也适用于正则表达式。在模式匹配发生之前,正则表达式模式必须编译成正则表达式对象。由于正则表达式在执行过程中将进行多次比较操作,因此强烈建议使用预编译。而且,既然正则表达式的编译是必需的,那么使用预编译来提升执行性能无疑是明智之举。re.compile()能够提供此功能。
这样匹配字符串就提取出来了,再来看看下面这种情况。
谢谢阅读!如有侵权请联系小编删除哦!