Python获取网页编码

Python获取网页编码

在做爬虫的时候有的网站中的网页可能有不同的编码方式,我们则需要把获取到的数据根据网页编码方式获取。所以我们要先判断当前网页使用的是何种编码方式,为此我使用requests库解析当前页的编码方式。

requests库是常用的网页解析库,也是我做爬虫时一直使用的库。其中的apparent_encoding方法可以正确获取当前网页的编码方式。

import requests
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
url = 'https://www.baidu.com/'
html = requests.get(url,headers=headers)
print(html.apparent_encoding)

运行结果如下:

猜你喜欢

转载自blog.csdn.net/qq_25174673/article/details/84244587