python爬虫出现乱码的解决办法 - 代码天地

python爬虫出现乱码的解决办法

其他 2018-07-17 08:17:55 阅读次数: 0

这种乱码现象基本上都是编码造成的，我们要转到我们想要的编码，先po一个知识点，嵩天老师在Python网络爬虫与信息提取说到过的：response.encoding是指从HTTP的header中猜测的响应内容编码方式，如果header中不存在charset，则默认编码为ISO-8859-1 ，这样一来某些不规范的服务器返回就必然乱码了；response.apparent_encoding是指从内容中分析出的响应内容编码方式。requests内部的 utils 也提供了一个从返回 body 获取页面编码的函数get_encodings_from_content，这样如果服务器返回的头不含 Charset，再通过 get_encodings_from_content 就可以知道页面的正确编码了。下面是调试的过程：

import requests
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            #print(response.text)
            print(response.encoding)
            print(response.apparent_encoding)
            r=response.text
            print(requests.utils.get_encodings_from_content(r)[0])
            a=r.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(r)[0])
            print(a)
            print('------------------------------------')
            b = r.encode('ISO-8859-1').decode(response.apparent_encoding)
            print(b)
        return None
    except RequestException:
        return None

def main():
    url = 'http://www.mh160.com/'
    get_one_page(url)

if __name__=='__main__':
        main()

猜你喜欢

转载自blog.csdn.net/a417197457/article/details/80607047

python爬虫出现乱码的解决办法

常见的爬虫乱码的解决办法

pl/sql 出现乱码解决办法 ????

关于网页出现乱码解决办法

java中出现乱码的解决办法

字符乱码出现的原因及解决办法

Python3的requests类抓取中文页面出现乱码的解决办法

Python中使用matlibplot画图时中文出现乱码的解决办法

Python pandas库DataFrame的to_csv保存数据出现中文乱码问题及解决办法

关于vs code使用code runner运行python代码出现中文乱码的解决办法

Python爬虫基础教程，详细讲解（含爬取文字为乱码解决办法、反爬虫机制解决办法）

Hql传中文参数出现乱码解决办法

Android以post方式传输中文出现乱码解决办法

Navicat for mysql 中文保存出现乱码的解决办法

linux下的命令行出现乱码的解决办法

springMVC中，出现中文乱码的解决办法produces

关于Eclipse 反编译.class出现乱码的解决办法

HttpClient提交表单出现中文乱码的解决办法

Jenkins启动出现乱码问题的解决办法

ssh连接linux出现中文乱码的解决办法

Qt—MSVC版本中出现中文乱码的解决办法

pyspider爬网页出现中文乱码的解决办法

loadrunner录制脚本出现乱码解决办法

js代码的中文出现乱码，解决办法很简单

NotePad 打开文件出现中文汉字乱码解决办法

安装kali出现中文乱码的解决办法

关于idea运行html页面出现乱码的解决办法

Post和Get请求时出现乱码解决办法

myEclipse代码中文出现乱码的解决办法

启动Tomcat出现乱码------淇℃伅的解决办法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)