爬虫实战：遇上gb2312编码的网页

其他 2018-07-27 21:35:17 阅读次数: 0

网页使用什么编码方式（utf-8，gbk，gb2312）等对实际内容的提取影响不大，并不会报错，但爬取到的中文可能存在乱码的现象。虽然现在大部分采用utf-8的网页并不会让你遇到这个问题，但是如果遇到了，知道解决办法还是很重要的。

昨天爬取某网页时，发现提取出的几千行信息中呈现出大量中文乱码现象。话不多说，直接给出博主的解决方案：

1.我使用的是requests包，将爬取到的网页使用的content方法改成text方法，就可以将中文乱码正常显示。（需要尝试，大概率可能成功，不成功采用方法2）

2.随即又发现一个问题，稍微生僻一些的汉字会以问号的格式显示。这个时候，就不得不考虑编码问题了。

将

改为

问题解决。

猜你喜欢

转载自blog.csdn.net/m0_37842667/article/details/81198702

爬虫实战：遇上gb2312编码的网页

XMLHttp读取GB2312编码的网页

GB2312编码

【python】抓取网页gb2312/gbk编码乱码

python抓取gb2312/gbk编码网页乱码问题

GB2312的编码规则

ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE网页编码

LAMP环境下，通过网页url获取gb2312编码中文命名的下载资源方法

爬虫之网页乱码解决方法(gb2312 -> utf-8)

字符编码GB2312、GBK、GB18030

GB2312, GBK

GBK与GB2312

【java】Java编码字符集与字符集编码入门（三） GB2312，GBK与中文网页

GB2312简体中文编码表

js对中文进行gb2312/gbk编码解码

字符编码（ASCII,Unicode,Utf-8,GB2312…）

编码问题 gb2312 utf-8

nginx支持GB2312和UTF-8编码

GBK编码要比GB2312慢多少？QenP

IOS编码GB2312与UTF-8互转

.net core中使用GB2312编码

GB2312 (简体中文)编码表

Java将GB2312编码转化为汉字

取汉字对应的gbk(或者gb2312)编码值

编码GBK和GB2312、Unicode、UTF-8

某汉字的GB2312编码是怎么来的？

GB2312简体中文编码表（转）

.NET Core 中使用GB2312编码报错的问题

PHP gb2312编码没有某个汉字

.net core使用GB2312编码报错

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)