Python 爬虫中文返回乱码

企业开发 2023-04-08 18:47:10 阅读次数: 0

Python 爬虫中文返回乱码

1、情景复现
2、尝试解决

1、情景复现

今天闲的无聊，就复习一下爬虫，先拿学校官网做实验，爬取学校官网新闻标题、时间以及链接，可是返回的中文一直是如下的乱码：

在这里插入图片描述

2、尝试解决

我们先查看要爬取的网站的编码方式，在要爬取的网站用鼠标右击–>检查–>点击Console 输入 document.charse 即可显示出网页的编码格式，如图：

在这里插入图片描述

一开始我们的代码是：

import requests
from lxml import etree
html = requests.get('https://www.cczu.edu.cn/')
tree = etree.HTML(html.text)
a = tree.xpath("//ul[@class='clearfix']/li")
total = []
for i in a:
    title = ''.join(i.xpath('.//h2//text()'))
    time = ''.join(i.xpath('.//h3//text()'))
    link = ''.join(i.xpath('./h2/a/@href'))
    print(title, time, link)

那咱来根据其网页的编码格式，把 request 返回的乱码转换一下：

import requests
from lxml import etree
html = requests.get('https://www.cczu.edu.cn/')
# 新增编码格式
html.encoding = "utf-8"
tree = etree.HTML(html.text)
a = tree.xpath("//ul[@class='clearfix']/li")
total = []
for i in a:
    title = ''.join(i.xpath('.//h2//text()'))
    time = ''.join(i.xpath('.//h3//text()'))
    link = ''.join(i.xpath('./h2/a/@href'))
    print(title, time, link)

完美解决！

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/a6661314/article/details/126735762

Python 爬虫中文返回乱码

Python爬虫中文乱码

python中文乱码问题(爬虫)

python爬虫中文乱码解决方法

解决python爬虫中文乱码问题

python爬虫使用requests和BeautifulSoup出现中文乱码

python学习之 requests爬虫导致的中文乱码

Python爬虫乱码问题

Python爬虫_乱码、转码

python输出中文乱码

python 中文乱码

python request 中文乱码

Python中文乱码

Python中文乱码问题

Python 中文乱码问题

[python] 中文乱码问题

python引包module出现No module named XXX，以及爬虫中文乱码问题

python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

盘点3种Python网络爬虫过程中的中文乱码的处理方法

Python爬虫获取网页编码为“ISO-8859-1”，中文乱码

python中——requests爬虫【中文乱码】的3种解决方法

java调用python返回乱码

Python：解决网络爬虫返回文本中中文显示“\uxxxx”的问题

python 爬虫 response得到乱码

Python爬虫汉字乱码问题

python 中文乱码 list 乱码处理

Python字符编码中文乱码

python中文乱码问题汇总

python输出中文乱码的问题

Python WingIDE中文乱码修复

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)