Python爬虫遇到法语é变成\u00e9 - 代码天地

Python爬虫遇到法语é变成\u00e9

其他 2020-08-04 02:10:52 阅读次数: 0

用Python爬虫过程中，尤其是爬取国外网站时候会发现出现一些\u00e9,\u00e8这种

查看原网页发现是一些法文,如é，à，ù等

其实都是不同编码包含内容不同的问题

一般我们用Python存储数据到文件时候是先编码为其他的编码集，比如gbk,或者常用的utf-8

在这儿我们需要的是它原始信息，所以需要数据原始信息，这儿就要提到unicode-escape编码集

unicode-escape编码集是将unicode通过内存编码值直接存储，这正是我们所需要的

所以只要对网页内容通过unicode-escape直接decode就可以了,不过需要注意的是这时候数据类型是Unicode类型的

这时候内容就会变成法语音标的信息了

如果还想把法语改为utf-8的网页内容就继续往下看吧~

记得先引用unicodedata包哦~

normalize()的意思是将其标准化，第一个参数可选的有“NFC”，“NFD”，“NFKC”，“NFKD”

其中，NFC表示字符是一个整体，NFD表示字符是多个字符串合并起来的，所以其标准化后的长度也不一样，NFC的比NFD的要短

同理，NFKC和NFKD也大致是同一个意思，不过这两个新增了兼容性，一般推荐用这两个

而对于后面的decode来说，其函数原型是decode([encoding], [errors='strict'])

第一个参数就是你需要编码的类型

第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常，它还可以选择为ignore，replace和xmlcharrefreplace 这三个分别代表的意思是忽略非法字符，用？代替非法字符，用XML的字符引用

最后再对相应的字符串改为utf-8就完全从原来的法语改为英语字母啦~~

————————————————
版权声明：本文为CSDN博主「SOD_DOB」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_33631684/article/details/89217670

猜你喜欢

转载自blog.csdn.net/mao_mao37/article/details/106645530

Python爬虫遇到法语é变成\u00e9

python爬虫或web中出现"\\u4e00"unicode字符串的原因

PHP正则匹配中文的记忆 \u4e00-\u9fa5 刚有4亿00后, 杠有9楼啊呜(5)

匹配中文字符的正则表达式：[\\u4E00-\\u9FA5]+

\u4e00-\u9fa5是什么意思？Unicode编码，匹配中文

python写入文件乱码\u559c\u6b22\u4e00\u4e2a\u4eba

\u4e00是什么字符

\\u559c\\u6b22\\u4e00\\u4e2a\\u4eba unicode编码问题

Python爬虫从入门到放弃 00 | 前言

python爬虫遇到10060

python爬虫遇到的坑

HDU 1012 u Calculate e Python实现

\[\e]0；\u@\h: \w\a\]\[\033[01；32m\]\u@\h\[\033[00m\]:\[\033[01；34m\]\w\[\033[00m\]$

当python爬虫遇到10060错误

Python网络爬虫遇到的问题

Python3 遇到\\u开头的编码

小白学 Python 爬虫（9）：爬虫基础

Python爬虫编程9——MongoDB

python爬虫9：实战2

Python爬虫教程-00-写在前面

00_初识爬虫

00 爬虫概念

U盘安装ESXi5.5 update1遇到了Lonading /lsi_mr3.v00

错误:Result: 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘u

谱减法语音降噪的Python实现

【Python爬虫9】Python网络爬虫实例实战

python爬虫中遇到的假死问题

运行python爬虫代码中遇到的问题~

python爬虫遇到会话存储sessionStorage

python之requests 爬虫遇到的时间坑

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)