编写第一个网络爬虫

3 种爬取网站的常见方法:

  • 下载网页

首先需要把网页下载下来,使用Python 的urllib 2 模块下载URL。

不过这样子的无法处理一些异常情况,如网页不存在,可以加入异常处理机制。

有时候服务器过载返回503 Service Unavailable错误是临时性的,我们可以尝试重新下载,并设置重试下载次数。

实验结果。。。

 

 

猜你喜欢

转载自blog.csdn.net/whimewcm/article/details/83583116