编码详解 ——包含ASCII、GBK、unicode、UTF-8等 - 代码天地

编码详解 ——包含ASCII、GBK、unicode、UTF-8等

其他 2020-07-28 10:11:43 阅读次数: 0

地址链接：https://mp.csdn.net/postedit/83684685

编码集是什么？

用于图形界面显示对应的编码集，其实就是图形

一、ASCII

最早起实现图形界面，计算机中的字节对应的字符集，只使用了0x00 - 0x7F， 1个字节

二、ISO-8859-1

西欧字符集，还有一些ISO-8859-2，ISO-8859-3等等

计算机发展到欧洲后，发现ASCII码没有包含他们特有的字符

所以兼容ASCII码，进行扩展，从0x80 - 0xFF，1个字节

三、GB2312

中文简体编码集，计算机发展到中国后创造的字符集

兼容ASCII码，是2个字节。所有的2个字符的内容（中文、全角符号等）高位字节和低位字节必须都大于0x7F

四、GBK

中文编码集，包括繁体

兼容GB2312，2个字节。只需要高位字节大于0x7F，低位字节不限制

五、GB18030

1个字节、2个字节、4个字节三种方式对字符编码，兼容GBK

六、BIG5

台湾的繁体中文字符集，2个字符

七、Unicode

每种语言中的每个字符设定了统一并且唯一的二进制编码

共有17个平面

其中有一个BMP基础平面，是2个字节，一般的中文也是2个字节

其他16个平面都是4个字节，不兼容ASCII，会将ASCII的1个字节变成2个字节，增大一倍的内存

example：你好啊 = \u4f60\u597d\u554a

八、UTF-8：UTF-8、UTF-16、UTF-32

可变字节：1个字节，2个字节，3个字节，4个字节，中文是3个字节，兼容ASCII

A. 小于0x80，对应ASCII

B. 多字节：

读一个字节，大于0x7Fz之后，展开为二进制

字节的高位有几个连续的1，那么就代表需要取几个字节

110* ****: 代表的是2个字节表示一个字符

1110 ****：代表的是3个字节表示一个字符

1111 0***：代表的是4个字节表示一个字符

后续跟着的字节，前面2位必须是10，这2个无实际意义

example：

汉字：中

对应utf-8的字节： b'\xe4\xb8\xad'

展开： e 4 b 8 a d

1110 0100 1011 1000 1010 1101

去掉第一个字节的表示位数的1110和后续的字节的高2位10

0100 11 1000 10 1101

每8位进行拼接：

0100 1110 0010 1101

4 e 2 d

对应的Unicode编码就是： \u4e2d

ending...

date: 2018-11-03

author: cymx66688

猜你喜欢

转载自blog.csdn.net/cymx66688/article/details/83684685

编码详解 ——包含ASCII、GBK、unicode、UTF-8等

ascii、unicode、utf-8、gbk编码

ascii、unicode、utf-8、gbk编码区别及转换

编码方式ASCII、GBK、Unicode、UTF-8比较

字符编码ascii、unicode、utf-8、gbk 的关系

ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解（一）

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解（二）

ascii，unicode，gbk, utf-8, utf-16等字符编码问题

ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式比较分析

ASCII GBK UTF-8 编码

计算机编码知识，ASCII编码，GBK，Unicode，UTF-8编码详细介绍

GBK、ANSI、Unicode、UTF-8编码

[转]字符编码详解及由来(UNICODE,UTF-8,GBK)

【转载】字符编码详解及由来(UNICODE,UTF-8,GBK)

【编码】ASCII、Unicode、GBK和UTF-8字符编码的区别联系

JAVA 编码之 ASCII、Unicode、GBK和UTF-8字符编码的区别联系

ASCII、Unicode、UTF-8编码关系

ASCII、ANSI、Unicode及UTF-8编码

Unicode,UTF-8,ASCII等字符编码

ASCII、Unicode、UTF-8编码

编码格式ASCII、Unicode、UTF-8

编码：ASCII 、UniCode、UTF-8

字符编码：ASCII Unicode UTF-8

字符编码ASCII、Unicode、UTF-8

编码：ASCII，Unicode 和 UTF-8

字符编码详解：ASCII、Unicode、UTF-8

概念浅析：字符集、字符编码、字节序、ASCII、GBK、Unicode、UTF-8、ANSI

ASCII，Unicode，GBK和UTF-8字符编码的区别和联系

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)