一文搞懂 unicode 与 utf-8

服务端 2021-11-16 13:16:49 阅读次数: 0

编码

首先，我们来了解编码是什么？

由于计算机只认识0和1，为了标识字符，需要一套统一的规则来实现诸如 0100 0001-> A 的映射，这就是编码

同时，随着计算机的发展，需要标识的字符不断在增加，导致编码种类也在不断的增加

ASCLL

最基础的编码，是由美国人定义的，他们用1字节（8位）来定义他们使用的所有字符

由于英文就26个字母，256（2^8）个映射位足矣标识所有字符

实际上，ascll只用了后面的7位（首位为0，形如 0xxx xxxx），定义了128个字符，以A为例：

A -> 65 -> 0100 0001

Unicode

随着各个国家都开始用编码来标识自己本国用的字符，大家逐渐发现1字节的编码方式根本不够用：

本国语言可能需要超过256个字符
多国语言对于同一个映射位，有不同的解释，比如上面的65在美国是A，但是在其他国家就可能是别的含义了，大家交流很费事，需要频繁的转换

这时候unicode应运而生，unicode相当于一个超级大（解决1）的字典，每个字符在唯一的值（解决2）

但是unicode只是一个字典，具体编码方式其实没有固定，如下所示：

A->65 -> ?

只规定了一个字符到一个数字的映射

UTF-8

utf-8是unicode的一种实现
兼容了已有的ascll
长度可变，1~4字节

编码规则：

字节长度=1时：第一位填0，剩余7位是该字符的unicode的编码值，这个方式与ascll码的编码方式一致，所以可以完全兼容ascll码
字节长度>1时：假设需要N个字节，第一个字节的前N位都是1，第N+1位设为0，剩余N-1个字节的前两位都是10，剩下来的所有位置用来作为该字符unicode的编码值

规则2说起来较为复杂，我们看下表格就比较容易理解了：

unicode 编码值范围	utf-8 二进制
0000 0000 ~ 0000 007F	0xxxxxxx
0000 0080 ~ 0000 07FF	110xxxxx 10xxxxxx
0000 0800 ~ 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 ~ 0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

总结

ascll ：最基础的编码，1字节，实际定义了128个字符
unicode：一种映射规则，为所有字符编上码，但没有具体实现
utf-8：是unicode的一种具体实现，1~4字节，兼容ascll

参考

彻底弄懂 Unicode 编码

猜你喜欢

转载自juejin.im/post/7030803429433802783

一文搞懂 unicode 与 utf-8

一文读懂所有的编码方式(UTF-8、GBK、Unicode、宽字节...)

一文读懂字符编码ASCII、Unicode与UTF-8

unicode, utf-8

Unicode 与 UTF-8

unicode与utf-8

一个UTF-8 与Unicode的转换网站

ascII,unicode,utf-8 utf-16,utf-32,BOM 的解说(一) mark

文本处理的一些技巧 unicode to UTF-8中文 linux shell下16进制 “\uxxxx” unicode to UTF-8中文

Unicode 和 UTF-8

Unicode和UTF-8

Unicode与UTF-8的区别

utf-8 unicode gbk

utf-8与unicode的区别

UTF-8与Unicode的转换

UTF-8 与 unicode 区别

Unicode与UTF-8关系

UNICODE与UTF-8的转换

彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)

Unicode,UTF-8和GBK编码方式，你真的搞懂了吗？

彻底搞懂字符编码ASCII,GB2312,UNICODE,UTF-8

一分钟学会ASCII、Unicode、utf-8编码的异同

字符编码笔记：ASCII，Unicode 和 UTF-8 ----阮一峰

JAVA字符编码系列一：Unicode,GBK,GB2312,UTF-8概念基础

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解（一）

对字符、字节、编码、解码、ASCII、Unicode、UTF-8 的一些理解

ASCII，Unicode和UTF-8

ANSI、UNICODE、UTF-8的演变史

Unicode 和 UTF-8 的区别

ASCII、Unicode、UTF-8编码关系

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

keepalived实现LB配置

数据库相关中间件收录集

Spring Boot 入门之 Web 篇（二） Spring Boot 入门之 Web 篇（二）

gitee 搭建个人网站

Java校招基础知识总结（横扫BAT,就业经验交流会演讲稿）

工程管理器

Delphi定位TDataSet数据集最后一条记录

cocos2dx笔记1:概述

Java实现 LeetCode 110 平衡二叉树

MacBook IDEA激活码

每日归档

更多

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)