Unicode UTF-8 UTF-16的关系 - 代码天地

Unicode UTF-8 UTF-16的关系

其他 2019-02-16 11:21:22 阅读次数: 0

关系　

　　Unicode是一个字符集。顾名思义，字符的集合。GBK，BIG5，ISO8859-1，ASCII都是字符集。

　　有一点不同的是，Unicode并没有规定字符的编码是如何实现的，上述的其它字符集有其编码方式。Unicode就好比java中的抽象类，实现编码的方法是抽象的。因此，需要实现编码方式才能应用于实际。UTF-8，UTF-16实现它编码方式。

UTF-8

　　UTF-8是变长的。即字符编码的字节数有差异。比如"A"的编码0x41, 只需一个字节，"中"的编码是0xe4b8ad,则需要三个字节，大部分中文字符的编码都是三个字节。

UTF-8的编码方式

　　

UTF-8编码 (参考wiki百科）
字节数	起始码点	终止码点扫描二维码关注公众号，回复： 5172830 查看本文章	字节1	字节2	字节3	字节4
1	U+0000	U+007F	0xxxxxxx
2	U+0080	U+07FF	110xxxxx	10xxxxxx
3	U+0800	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx
4	U+10000	U+1FFFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

　　以字符"中" 为例：

　　1. 查找"中"字的Unicode 码点(code point), U+4e2d, 二进制码点表示为 0100 1110 0010 1101

　　2. 因为U+0800 < U+4e2d < U+FFFF, 可知需要三个字节编码。

　　3. 从右到左将二进制码点填写到xxx中。得到11100100 10111000 10101101 即0xe4b8ad.

UTF-16

　　UTF-16开始时是定长的，后来也变长的，UTF-16使用两个或四个字节编码。java一开始选择UTF-16作为运行时的字符编码，是因为字符定长编码带来的字符操作便利。UTF-16中有一个术语代码（code unit）。编码时每16个位就是一个代码单元。用4个字节编码时，就是编码为两个代码单元。

UTF-16的编码方式

UTF-16编码
字节数	字节1	字节2	字节3	字节4
2	xxxx xxxx	xxxx xxxx
4	1101 10xx	xxxx xxxx	1101 11xx	xxxx xxxx

　　还是以字符"中"为例：

　　1.查找"中"字的Unicode 码点(code point), U+4e2d, 二进制码点表示为 0100 1110 0010 1101

　　2.直接按照码点进行编码，得到0x4e2d.也就是说其实UTF-16的两个字节编码和Unicode的码点是完全一样的。

　　

　　

猜你喜欢

转载自www.cnblogs.com/yvkm/p/10387002.html

Unicode UTF-8 UTF-16的关系

Java中Unicode与utf-8、utf-16的关系

Unicode与UTF-8、UTF-16、UTF-32

Unicode，UTF-32,UTF-16,UTF-8到底是啥关系？

Unicode和UTF-8、UTF-16、UTF-32之间的关系

Unicode(UTF-8, UTF-16)令人混淆的概念

Java基础语法-Unicode、UTF-8、UTF-16

Unicode 和 UTF-8、UTF-16之间的区别

ASCII、GB 2312、GB 18030、UNICODE、UTF-8、UTF-16之间的关系

Java 中 char 和 Unicode、UTF-8、UTF-16、ASCII、GBK 的关系

Unicode与UTF-8关系

unicode, utf-8

Unicode 与 UTF-8

unicode与utf-8

编码格式：GBK（多字节），Unicode编码，UTF-8,UTF-16,char与wchar_t（tchar）的关系

ascII,unicode,utf-8 utf-16,utf-32,BOM 的解说(一) mark

Unicode、UTF-8、UTF-16、UTF-32的概念和相关用法

Unicode、UCS、BMP、UTF-8、UTF-16、UTF-32

字符编码方式及判断整理（ANSI，Unicode,utf-8,utf-16,utf-32）

unicode、gbk、iso8859-1、ascii、utf-8、utf-16、utf-32

ASCII，GBK，和Unicode的UTF-8，UTF-16，UTF-32阐述

Unicode字符集、UTF-8、UTF-16、UTF-32

Unicode详解（附UTF-8、UTF-16和UTF-32）

ASCII、Unicode、UTF-8、UTF-8（without BOM）、UTF-16、UTF-32傻傻分不清

弄懂进制、bit、java基本数据类型（byte、short、int 、char 、String）、ASCII、Unicode、UTF-8、UTF-16的关联关系及UTF-8、UTF-16编码原理

ascii，unicode，gbk, utf-8, utf-16等字符编码问题

字符编码详解（ASCII,Unicode,ANSI,UTF-16,UTF-8）

gbk, gb2312,big5,unicode,utf-8,utf-16的区别

unicode 、utf-8 、utf-16、ascii 、gbk 、gb2312 的区别

ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式比较分析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)