正则表达式——Unicode

其他 2018-12-12 11:04:42 阅读次数: 0

第 7 章 Unicode

7.1 关于编码

通常，英文编码较为统一，都采用ASCII编码或可以兼容ASCII编码（即编码表的前127位与ASCII编码一直，常见的各种编码，包括Unicode编码都是如此）。也就是说，稳赢字母、阿拉伯数字、稳赢的各种符号，在不同编码下的码值（Code Point）基本是一样的，比如字母A,起码值总是41；中文的情况则不同，常见的中文编码有GB18030（也就是CP54936，主要是在Windows平台下使用。早期是GBK，也就是CP936，如今采用的GB18030与GBK是兼容的，考虑到大家习惯说“GBK编码”，下文也采用“GBK编码”的说法）和Unicode（主要用于Linux/UNIX、Mac OS）两种，同一个中文字符在两种编码下的码值并不相同。比如“发”，在GBK编码下的码值为b7a2，而在Unicode下其码值为53d1（根据惯例，Unicode字符一般即为\uhex的形式，其中hex是码值的十六进制表示，所以“发”的Unicode记法就是\u53d1).

为方便下面的讲解，这里先约定两种提法：

ASCII字符，即ASCII编码表中的字符（也就是码值在0 ~ 127之间的字符，不包括扩展ASCII字符），每个字符用一个字节表示。常见的英文字符和半角标点符号，都属于ASCII字符。

非ASCII字符，即ASCII编码表之外的字符，在本书中指多字节字符。中文字符属于“非ASCII字符”，它们在GBK编码中一般占用2个字节，在UTF-8编码中占用3个字节。常见的Unicode编码是UTF-8，它是Unicode的一种存储格式，UTF-16也是一种存储格式。无论是UTF-8还是UTF-16，同一字符的Unicode编码是不变的，只是存储时的变现形式不同。比如“发”的码值53的，但以UTF-8编码保存时占用3个字符，分别是e5 8f 91，保存为UTF-16编码时占用用2个字符，分别53 d1。

猜你喜欢

转载自www.cnblogs.com/gaara0305/p/10107148.html

[正则表达式]匹配Unicode

正则表达式——Unicode

正则表达式——Unicode 属性

正则表达式——Unicode 属性列表

正则表达式和Unicode编码

正则表达式——Unicode 匹配规则

《正则表达式》正则表达式

正则表达式

正则表达式?is

正则表达式：

正则表达式[^?&=]

正则表达式|

【正则表达式】

正则表达式 - (?!), (?:), (?=)

正则表达式(.*?)

正则表达式（.*?）或（.*+）

正则表达式~

《正则表达式》

正则表达式^

(.*?)正则表达式

正则和正则表达式

正则表达式(正则引出)

正则化及正则表达式

Lambda表达式和正则表达式

正则表达式---常用表达式大全

正则表达式--检验数字的表达式

正则表达式-校验字符的表达式

正则表达式表达式及常用案例

正则表达式分组表达式

正则表达式工具类，正则表达式封装，Java正则表达式

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)