Python3爬虫1-请求库

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/x15696576570/article/details/84844504

获取网页源代码是爬虫的第一步,在Python中最常用的就是urllib和request两个库了。

urllib库介绍

先说一下python版本变化前后的区别,这个曾给我带来不小的麻烦。

  • 在Python2中,有内置的urllib、urllib2两个库,urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理。
  • 而在Python3中,已经不存在urllib2这个库了,统一为urllib。urllib作为Python3的标准库,基本上涵盖了基础的网络请求功能。它包含如下四个模块:
    1. request:它是最基本的HTTP请求模块用来模拟发送请求;
    2. error:异常处理模块,用来捕获异常自定义处理方式,保证程序不会意外终止;
    3. parse:提供URL的处理方式,如拆分、解析、合并等;
    4. robotparser:用于处理网站的robots.txt文件,规范爬虫。
  • 另外有一个扩展的urllib3,在urllib上增加了连接池等功能,两者互相都有补充的部分。urllib3是服务于升级的http 1.1标准,拥有高效 http连接池管理及 http 代理服务的功能库,从 urllib 到 urllib2和urllib3是顺应互联应用升级浪潮的,这股浪潮从通用的网络连接服务到互联网网络的头部应用:支持长连接的 http 访问,网络访问不断的便捷化。

使用Python3的urllib库

参考简书Python网络请求urllib和urllib3详解

requests库介绍

urllib库很全,但也有很多不方便之处。为了更加方便的实现请求头构造、Cookies等功能,Python中有更强大的request库。

使用request库

还是参考简书【Requests】优雅到骨子里的网络请求库,因为他写得真的很好。

源代码有了,但需要正确的解析过滤才能称得上数据。

猜你喜欢

转载自blog.csdn.net/x15696576570/article/details/84844504