首先得明白UTF-8是Unicode的实现方式之一
可以先看看这篇文章 ---- 各种编码格式(非常经典)
例:“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用3字节模板:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
11100110 (多出的位补0----对应第三个零)
10110001
10001001
对应的这个
0110 1100 0100 1001