《流畅的Python》学习笔记（5） —— 文本和字节序列

其他 2020-01-30 10:42:20 阅读次数: 0

流畅的Python（5） —— 文本和字节序列

Python中对字符串的管理有两种方式一种是：字符序列另一种是Unicode，在中文的自然语言处理中，会使用到文本数据，所以需要仔细地研究字符串与文本关系，这也是Python中的一个坑点。

下图为Unicode与字节码的关系：
在这里插入图片描述

1.Unicode(码位) 与bytes(字节序列)

Unicode就是我们常说的“字符”，也叫码位，Python中string类型是Unicode编码，可以把他认为是人类看懂的字符，对于Python而言是统一的。

字节码：是由byte字节类型组成，用来表示字符的串。在C语言中，变量类型为char，占一个字节，根据不同的编码方法同一个字符会有不同个数的字节来表示。

2. 编解码问题

str.encode()和b.decode()是连接Unicode和bytes之间的两个重要方法。
在这里插入图片描述
编码（encode）：将Unicode按照编码方法（如：UTF-8, UTF-16）编译成字节序列

解码（decode）：将字节序列按照编码方法编译成Unicode编码

值得注意的是: 编解码的方法需要事先指定，否则回造成UnicodeError等常见错误

3. 常见的字符串错误与最佳实践

常见错误

错误名称	原因
UnicodeEncodeError	把文本转换成字节序列时，如果目标编码中没有定义某个字符，就会报错
UnicodeDecodeError	把二进制序列转换成文本时，如果假设是这两个编码中的一个，遇到无法转换的字节序列时会抛出 UnicodeDecodeError

目前的最佳实践是，IO过程需要进行编解码操作，而数据处理阶段仅需要完全对Unicode进行操作。
在这里插入图片描述

韩观

发布了4 篇原创文章 · 获赞 2 · 访问量 151

私信关注

猜你喜欢

转载自blog.csdn.net/baidu_34912627/article/details/104102767

《流畅的Python》学习笔记（5） —— 文本和字节序列

《流畅的Python》学习笔记（5） —— 文本和字节序列

《流畅的Python》读书笔记——Python文本和字节序列

流畅的python第四章, 文本和字节序列开始

python 中文转字节序列

《流畅的python》学习笔记 -内置序列模型

Python 二进制序列（字节序列）类型之一：bytes [学习 Python 必备基础知识][看此一篇就够了][文本序列（str）转换成字节序列（bytes）][字节序列转换为文本序列]

第4章文本和字节序列（上）

第4章--文本和字节序列

《流畅的Python》学习笔记（3） —— 序列的骚操作

《流畅的Python》学习笔记（3） —— 序列的骚操作

Python网络字节序与主机字节序

Python高效编程之88条军规（1）：编码规范、字节序列与字符串

《流畅的python》学习笔记 - 列表推导和生成器表达式

《流畅的Python》学习笔记3（第3章：字典和集合）

主机字节序和网络字节序

网络字节序和主机字节序

网络字节序列，本机字节序列

《流畅的Python》读书笔记——Python序列的修改、散列和切片

（三）Socket的学习（三）字节序相关

《流畅的python》学习笔记 - 元组

【C++】POCO学习总结（十三）：类型和字节序、错误处理和调试、获取系统信息

Python网络编程之数据的主机字节序与网络字节序

《流畅的python》读书笔记（5）

网络字节序和本地字节序的理解和实现

Python 学习笔记 | 5 类和对象

比特序和字节序

字节序和位序

《流畅的Python》1-序列

网络字节序和主机字节序详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)