Python爬虫:爬虫获取数据保存到文件

接上一篇文章:Python爬虫:编写简单爬虫之新手入门

前言:

上一篇文章,我爬取到了豆瓣官网的页面代码,我在想怎样让爬取到的页面显示出来呀,爬到的数据是html页面代码,不如将爬取到的代码保存到一个文件中,文件命名为html格式,那直接打开这个文件就可以在浏览器上看到爬取数据的效果了。废话不多说,进入正文。

本篇文章:继续介绍另外两种方式来实现python爬虫获取数据,并将python获取的数据保存到文件中。

一、第一种方式:

主要通过爬取百度官网页面数据,将数据保存到文件baidu.html中,程序运行完打开文件baidu.html查看效果。具体代码中有详细的代码解释,相信刚入门的你也能看懂~~

说明一下我的代码环境是python3.7,本地环境是python2.x的可能需要改部分代码,用python3.x环境的没问题。

代码如下:

 
  1. # -*- coding: utf-8 -*-

  2. import urllib.request

  3. import urllib

  4.  
  5. # 1、网址url --百度

  6. url = 'http://www.baidu.com'

  7.  
  8. # 2、创建request请求对象

  9. request = urllib.request.Request(url)

  10.  
  11. # 3、发送请求获取结果

  12. response = urllib.request.urlopen(request)

  13. htmldata = response.read()

  14.  
  15. # 4、设置编码方式

  16. htmldata = htmldata.decode('utf-8')

  17.  
  18. # 5、打印结果

  19. print (htmldata)

  20.  
  21. # 6、打印爬去网页的各类信息

  22. print ("response的类型:",type(response))

  23. print ("请求的url:",response.geturl())

  24. print ("响应的信息:",response.info())

  25. print ("状态码:",response.getcode())

  26.  
  27. # 7、爬取数据保存到文件

  28. fileOb = open('baidu.html','w',encoding='utf-8') #打开一个文件,没有就新建一个

  29. fileOb.write(htmldata)

  30. fileOb.close()

在open()方法中如果没有设置编码encoding='utf-8',会报错,原因如下:
在windows下面,新文件的默认编码是gbk,这样的话,python解释器会用gbk编码去解析我们的网络数据流html,
然而html此时已经是decode过的unicode编码,这样的话就会导致解析不了,出现上述问题。
设置encoding='utf-8',打开文件时就按照utf-8格式编码,则顺利运行。

运行结果:

部分截图如下:截取的是第六步中的网页各类信息,第五步打印的数据过多,也已经保存到文件baidu.html中了,所以没有截取。

下图是运行程序之后在本地生成的baidu.html文件

打开此baidu.html文件结果如下图所示:

有没有很神奇是不是和百度页面一模一样^_^,没错,就是这样子的

二、第二种方式:添加特殊情景的处理器

代码如下:

 
  1. # -*- coding: utf-8 -*-

  2. import urllib.request, http.cookiejar

  3.  
  4. # 1、网址url --百度

  5. url = 'http://www.baidu.com'

  6.  
  7. # 2、创建cookie容器

  8. cj = http.cookiejar.CookieJar()

  9. handle = urllib.request.HTTPCookieProcessor(cj)

  10.  
  11. # 3、创建1个opener

  12. opener = urllib.request.build_opener(handle)

  13.  
  14. # 4、给urllib.request安装opener

  15. urllib.request.install_opener(opener)

  16.  
  17. # 5、使用带有cookie的urllib.request访问网页,发送请求返回结果

  18. response = urllib.request.urlopen(url)

  19. htmldata = response.read()

  20.  
  21. # 6、设置编码方式

  22. data = htmldata.decode("utf-8")

  23.  
  24. # 7、打印结果

  25. print (data)

  26.  
  27. # 8、打印爬去网页的各类信息

  28. print ("response的类型:",type(response))

  29. print ("请求的url:",response.geturl())

  30. print ("响应的信息:",response.info())

  31. print ("状态码:",response.getcode())

  32.  
  33. # 9、爬取数据保存到文件

  34. fileOb = open('baiduCookie.html','w',encoding='utf-8') #打开一个文件,没有就新建一个

  35. fileOb.write(data)

  36. fileOb.close()

  37.  

为了区别第一种生成的文件baidu.html,这里我将第二种生成的文件命名为baiduCookie.html

这种方式结果和第一种一样,只是代码不同,所以下面不在赘述,结果见第一种即可。

喜欢我的文章的可以关注哦,有问题的可以提出来,(q群 467604262 大佬都在哦)互相交流,互相学习^_^

猜你喜欢

转载自blog.csdn.net/xixi20200/article/details/108973030