什么是 Unicode文本标准化？ - 代码天地

什么是 Unicode文本标准化？

编程语言 2022-05-28 14:25:44 阅读次数: 0

最近遇到unicodedata模块，才知道它的一个应用。某些字符能够用多个合法的编码表示，这就会导致一些问题。

如一个字符ñ既可以使用\u00f1，也可以使用n\u0303表示，如下所示：

In [2]: '\u00f1'                                                                                                                 
Out[2]: 'ñ'

In [3]: 'n\u0303' # 注意前面有个字符n                                                                            
Out[3]: 'ñ'
复制代码

原因是第一种表示\u00f1为整体表示法，第二种n\u0303为组合表示法，是n和字符~的组合字符。

很显然，在需要比较字符串的程序中，使用像上面字符的多种表示法会产生问题，如下所示：

In [4]: s1='\u00f1'                                                            

In [5]: s2='n\u0303'                                                            

In [6]: s1==s2                                                                 
Out[6]: False
复制代码

我们期望上面的字符ñ在两种表示下是相等的，这就需要使用unicodedata模块，将这些字符标准化：

s1='\u00f1' 
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2                                                                
Out[25]: True
复制代码

normalize() 第一个参数指定字符串标准化的方式。NFC表示字符应该是整体组成，还有其他标准化方法如NFD，上面的字符n和 \u0303 的组合n\u0303，就是NFD表示法。

埃格斯特朗符号 Å，在NFC中总是被代换成在视觉上相同的U+00C5（Å –在上方带环的A）。在NFD中，则会换成由U+0041（A) 和U+030A（°）这两个字符所组成的序列。

标准化对于任何需要以一致的方式处理Unicode文本的程序，正规化是很重要，因为它影响了比较、搜索和排序的意义。

以上就是本次分享的所有内容，想要了解更多欢迎前往公众号：Python 编程学习圈，每日干货分享

猜你喜欢

转载自juejin.im/post/7102658092340346894

什么是 Unicode文本标准化？

python之将Unicode文本标准化

python cookbook 2.9 将Unicode文本标准化

为什么要做特征归一化/标准化？

什么是归一化和标准化

为什么要做特征的归一化/标准化？

5.5 高阶内容-什么是批标准化 (Batch Normalization)

什么是数据【标准化】【归一化】，他们有什么作用？

1.什么是归一化，它与标准化的区别是什么

什么是归一化，它与标准化的区别是什么？

python数据结构算法题二十八：将 Unicode 文本标准化

Batch Normalization批标准化是什么？ | BN有啥用 | Batch Normalization是什么

为什么要进行数据标准化？什么时候需要进行数据标准化，什么时候不需要进行数据标准化？

字符串与文本03-非贪婪模式 / 多行匹配模式 / Unicode文本标准化

为什么需要做归一化或者标准化

为什么企业一定要走标准化、体系化的道路？

为什么我们急需推进物联网标准化？

区块链的统一标准化，该做什么准备

什么时候需要标准化回归模型中的变量？

财务标准化建设进程中，财务共享能起到什么作用？

为什么要推进“电子凭证会计数据标准化”？

一篇测评都需要什么——手机标准化评测方法的梳理和解读

dataframe 文本标签标准化与编码化（）

python字符串与文本处理技巧(2)：大小写敏感搜索、最短匹配、多行匹配、Unicode标准化

什么是unicode

标准化脚本

批标准化

数据的标准化

数据标准化

nginx标准化

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)