爬虫-解决中文乱码

编程语言 2018-11-10 12:38:10 阅读次数: 0

爬虫-解决中文乱码

问题：获取网站中文显示乱码
解决

查看正确编码
解决gzip压缩

问题：获取网站中文显示乱码

使用requests.get获取了网页代码之后，发现其中有部分为乱码

这是一般是编码问题导致的

解决

查看正确编码

只需要在get得到代码的基础上，print()中将text换为encoding即可

#!/usr/bin/python
# coding: utf-8

import requests
r = requests.get("你要爬取的网址")
print(r.encoding)

我们就会得到该网址的编码
再将其以正确的编码输出

#!/usr/bin/python
# coding: utf-8

import requests

r1 = requests.get("你要爬取的网址")
r1.encoding='上一步中输出的正确编码'
print(r1.text)

解决gzip压缩

也许我们在进行了上述操作之后，发现代码中仍存在乱码，与网页检查得到的代码比较，我们发现乱码部分都是中文部分。这就说明网页制作者使用gzip将网页压缩了，下面我们要将其解码。
使用.coment可以将其解码

#!/usr/bin/python
# coding: utf-8

import requests
import chardet

r1 = requests.get("你要爬取的网址")
r1.encoding='上一步得到的编码'
after_gzip= r1.content
print(chardet.detect(after_gzip))

这样你就会获取解压后的字符串编码，以’encoding’:'正确编码’形式呈现，再以这个编码将内容输出

#!/usr/bin/python
# coding: utf-8

import requests
import chardet

r1 = requests.get("你要爬取的网址l")
r1.encoding='上一步得到的编码'
after_gzip= r1.content
html = after_gzip.decode('这一步得到的编码')
print(html.text)

这样我们就获得了没有中文乱码的内容

猜你喜欢

转载自blog.csdn.net/huavhuahua/article/details/83927463

爬虫-解决中文乱码

爬虫学习----解决中文乱码

python爬虫中文乱码解决方法

解决python爬虫中文乱码问题

爬虫下来的网页中文乱码解决

爬虫中文乱码解决方法

Python爬虫中文乱码

解决爬虫response.text后中文的乱码问题

爬虫中文乱码繁体字乱码问题解决

python中文乱码问题(爬虫)

Python 爬虫中文返回乱码

解决java爬虫乱码

网页爬虫解决乱码

Tomcat解决中文乱码

解决xshell 中文乱码

解决中文乱码问题

Django中文乱码解决

JFreeChart 解决中文乱码

idea的中文乱码的解决

matplotlib解决中文乱码

plsql中文乱码解决

mysql 中文乱码的解决

解决Linux中文乱码

解决MySQL中文乱码

linux 中文乱码解决

nzsql 中文乱码解决

plsql 中文乱码解决

IDEA 中文乱码的解决

SpringMVC解决中文乱码

matplotlib中文乱码解决

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)