Python爬取网页遇到乱码怎么办?

首先,在我们编写python代码的时候就要注意一些编码的规范。

  1.源码文件用#-*-coding:utf-8-*- 指定编码并把文件保存为utf-8格式

  2.文件开头使用from __future__ import unicode_literals   以此避免在中文前面加u,以考虑到迁移到python3。

  3.python内部是用Unicode存储的,所有的输入要先decode变成unicode,输入的时候encode变成想要的编码。在window环境下常用到的有utf-8,gbk,gb2312,gb18030等。

  4.一般网站基本都是utf-8或者gb2312。可以尝试进行decode,然后encode 当前输出环境的编码格式,系统默认的编码格式通过sys.getfilesystemencoding()。涉及到文件路径的时候要转换为系统默认的编码。

  5.unicode字符串在写入文件时必须转换为某种字符编码。

想要学习Python?Python学习交流群:984632579满足你的需求,资料都已经上传群文件,可以自行下载!

  在抓取网页时,我们可以先看看该网页的字符编码,这些内容可以在html代码或者f12看network中看到:

  当你得到网页源码后进行print的时候,那么你就要小心了。你可能会得到UnicodeEncodeError!

  你可以这样:


另外还有一种万能的方式,就是用chardet包确定网页编码。刚试了试 比较慢。。。需要安装chardet包,地址为https://pypi.python.org/pypi/chardet 可以通过pip install chardet 或者 easy_install chardet安装。使用代码如下:

还有一种可能就是,你得到的网站内容是被gzip压缩过的,这时候我们还需要去解压缩。大部分的服务器是支持gzip压缩的,我更改了一下HttpClient.py。我们默认就去已gzip的方式去访问网站,得到压缩过的内容再处理,这样抓取速度就更快了,下面来看一下HttpClient.py的Get方法:


写了这么多发现没写到点子上,自己经验比较少,然而字符编码这种事情是需要经验的。总结起来就是一句话,如果出现了UnicodeEncodeError错误了,就说明字符编码出问题了,python解释器也是一个工具,你需要让他明白,所以要decode,然后他为了让你明白所以要encode。  为了万无一失推荐使用chardet包!

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88531249