Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢ - 代码天地

Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

其他 2018-07-31 05:11:42 阅读次数: 0

# -*- coding:utf-8 -*-
import requests
import json
import time
import random
from lxml import etree


url = 'https://www.msra.cn/zh-cn/news/features/bma-20170207'
# 伪装成Mozilla浏览器，解决反爬虫
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
# 生成属性字典
headers = {'User-Agent': user_agent}
# 获取目标网站的HTML页面
response = requests.get(url, headers=headers)
# print(response.text)
a = response.content
selector = etree.HTML(a)
print(selector)

这是结果

Connected to pydev debugger (build 181.4445.76)
<Element html at 0x2492bb71248>
å¾®è½¯äºæ´²ç ç©¶é¢
茅娄聳茅隆碌
ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

之前使用python2.7遇到许多这样的编码问题，本以为转战3版本就不会遇见了。今天遇到的这个问题，找了挺久资料，终于找到解决方案：

把 response.content 改成 response.text ，这样问题就解决了。

原理：

resp.text返回的是Unicode型的数据。
resp.content返回的是bytes型也就是二进制的数据

因此如果我们想读取解析文本数据时，使用的是response.text。而想读取解析图片文件，往往使用的就是response.content

猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/81181946

Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

Python3.5+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

Python爬取网页遇到乱码怎么办？

python3.x+requests 爬取网站遇到中文乱码的解决方案

Python爬取数据过来结果是乱码怎么办？两种解决方案

python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！

遇到需要的登录的网站怎么办？学好python，用这3招轻松搞定

python爬取html中文乱码

喜欢抖音上面的音乐怎么办？用Python爬取音乐并分类放置文件夹

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

python3.6 安装Twisted出错怎么办

python3中用django下载文件，中文名乱码怎么办？

python爬虫19 | 爬虫遇到需要的登录的网站怎么办？用这3招轻松搞定！

vscode python文件注释乱码怎么办

python爬虫遇到IP被封的情况，怎么办？

【Python】遇到 from PIL import Image 报错怎么办？

python使用requests和BeautifulSoup爬取网页乱码问题

2021-7-3 爬网页22-爬取某小说保存到txt(python3.6，静态页面，requests.get，去除特定字符串）

python解决Requests中文乱码

爬取的文档突然中文全部乱码 - Python

jsp 中文乱码怎么办？

eclipse中文乱码怎么办

SecurecRT中文乱码怎么办？

Python3.6 爬取网页图片

第46讲：遇到动态页面怎么办？详解渲染页面爬取

Python写个爬虫碰到反爬了，怎么办那就动手破坏它！

python requests 乱码解决

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法

Python requests 爬取qq音乐URL

python requests 简单网页文本爬取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)