Python_Python2利用urllib2抓取中文网页乱码的问题 - 代码天地

Python_Python2利用urllib2抓取中文网页乱码的问题

其他 2018-07-28 16:44:17 阅读次数: 0

今天想用urllib2抓去网页源码，出现了问题，print打印显示乱码。

代码一：

response=urllib2.urlopen('http://caipiao.163.com/award/').read()

打印之后出现乱码问题。

【1】分析：首先怀疑是编码问题，于是看了网页源代码，发现是utf-8编码，编码是正确的。

<!DOCTYPE HTML>
<html>
<head>
<link rel="shortcut icon" href="/favicon.ico"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<meta name="application-name" content="caipiao.163.com"/>

注：网页编码的方式可见网页源代码首部，如上图。

【2】分析：编码正确，进过查阅资料。发现导致乱码问题有两个原因：1、编码问题 2、压缩格式的问题。很多网站也会以压缩格式的形式输出到页面，此时你去打印这个压缩包一样的东西，就会出错。

解法：内置函数解压

response=urllib2.urlopen('http://caipiao.163.com/award/').read()
data = StringIO.StringIO(response)
gzipper = gzip.GzipFile(fileobj=data)
html = gzipper.read()
html=html.encode('utf8')
name1=re.findall(r'</em><strong>(.+)</strong>',html)
print name1[0]

【3】附一些爬虫技巧：http://www.open-open.com/lib/view/open1375945149312.html

【4】解压相关函数并没有去深入了解，用到在复习

猜你喜欢

转载自blog.csdn.net/m0_38034312/article/details/81080243

Python_Python2利用urllib2抓取中文网页乱码的问题

python2利用urllib2抓取中文网页乱码的问题

Python网页下载器urllib2

Python_Python2的编码问题详解

Python中的urllib2

Python urllib2高级

Python urllib2 模块

python利用urllib和urllib2抓取百度贴吧的页面程序并下载下来在本地

python3的urllib以及urllib2的报错问题

Python实战（二）—— urllib2 下载网页的方式总结

Python的urllib和urllib2模块

Python爬虫-urllib2（2）

Python中urllib2的数据标准化问题

Python3 下找不到urllib2的问题

python：No module named ‘urllib2‘ 问题及解决方式

python 3.x 使用urllib2的问题

Python urllib、urllib2、urllib3用法及区别

python 标准库urllib2 使用

Python urllib2产生僵尸进程

python2.7 urllib2 爬虫

Python爬虫-urllib2（1）

Python 爬虫 Urllib2库的变更

python里urllib2库的使用

Python使用urllib2 POST数组

Python爬虫(二)_urllib2的使用

Python2 urllib2爬取网页一简单爬取

python爬虫学习——urllib、urllib2库的使用

python的httplib、urllib和urllib2的区别及用法【转】

python中urllib 和urllib2之间的联系

python的httplib、urllib和urllib2的区别及用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)