彻底解决Python3写爬虫或网站时的乱码问题 - 代码天地

彻底解决Python3写爬虫或网站时的乱码问题

其他 2019-08-05 23:38:03 阅读次数: 0

第一次写贴子，文笔差，写的不清楚的地方请见谅

很多玩Python3的都会遇到编码问题，如果直接去处理未知编码的网页，不是utf8格式会出现乱码，下面介绍一种将未知编码的字串转换为utf8来避免乱码的方法，

在很多Python编码转换的场景中都可以使用

自己写的爬虫里提取的部分：

#请求网页并转网页编码
def getHtmlAndDealCode(url):
    #html=requests.get(url,verify=False)
    html = s.get(url,headers=header)
    code=html.encoding
    html=html.text
    html=html.encode(code)
    html=html.decode('utf-8')
    parser = 'html.parser'
    soup = BeautifulSoup(html ,parser)
    return soup

原理就是通过 encoding 得到字串编码再通过encode解这种编码，decode('utf-8')将编码转换为utf8编码，然后就可以进行后面的处理了

是不是简单又实用啊

猜你喜欢

转载自www.cnblogs.com/pozhu15/p/11306335.html

彻底解决Python3写爬虫或网站时的乱码问题

Python3 ssl not available问题彻底解决

手把手教你写网络爬虫（8）：彻底解决乱码问题

小白学爬虫：彻底解决乱码问题（八）

彻底解决matplotlib中文乱码问题

彻底解决MySQL中的乱码问题

python爬虫编码彻底解决

从底层分析，我们来彻底解决python乱码问题

彻底解决Spring MVC 中文乱码问题

spring mvc 之彻底解决乱码问题。

彻底解决Spring MVC 中文乱码问题--摘

彻底解决Spring MVC 中文乱码问题

彻底解决ajax及后端中文乱码问题

如何彻底解决SpreadJS导出PDF字体乱码问题

彻底解决Intellij IDEA中文乱码问题

正确版本！！！彻底解决tomcat中文乱码问题

彻底解决Android WebView中文乱码的问题

彻底解决Tomcat控制台乱码问题

彻底解决tomcat中文乱码问题的终极方案

彻底解决IDEA输出中文乱码问题

解决Python3 爬虫InsecureRequestWarning的问题

java mail中文乱码彻底解决

彻底解决mysql中文乱码的办法

彻底解决mysql中文乱码

linux mysql乱码彻底解决

彻底解决 MySQL 中文乱码

彻底解决springMVC中文乱码网址

Spring MVC 彻底解决中文乱码

jsp如何彻底解决中文乱码

python3的requests解析中文页面时乱码问题解决方法

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)