UTF-8&Unicode,0xC0和0x80是什么？ - 代码天地

UTF-8&Unicode,0xC0和0x80是什么？

其他 2019-08-06 08:48:27 阅读次数: 0

转载：http://blog.sina.com.cn/s/blog_7c4f3b160101dv4p.html

一个字符串长度统计的代码,如下

 
int calcLen(const char* _str)
{
        int n = 0;
        char ch = 0;
        while ((ch = *_str))
        {
            CC_BREAK_IF(! ch);
            if (0x80 != (0xC0 & ch))
            {
                ++n;
            }
            ++_str;
        }
        return n;   
}

其中关于0x80 != (0xC0 & ch)的判断, 百思不得其解,按照ansi表的标准解释来看, 0~127位足以表达对字符数目的统计,也就是说用如下代码

(0x80 & ch) == 0 足以判断这个ch是不是一个字符, 因此那种复杂的写法理论上不只是做ansi字符的判断。

0xC0也就是1100, 这个&运算判断的是下一个ch的头两位是什么字符, 因为11能完全反映出本来的数字

对于普通的ansi字符(非扩展集)而言, 他的头一位一定是0(0000 0000 ~ 0111 1111)

对于UTF-8字符而言, 因为UTF-8编码是一种多字节序的形式, 他采用如下的数字序规律

所有10打头的在UTF-8里面, 表示都是一个多字节序的子序

两个UTF-8字符, 打头则是以110开始, 后面跟10XXXXXX, 10YYYYYY表示接下来的字符

三个则是1110开始, 后面跟三个10XXXXXX来表示字符

所以在计算字符串个数的时候, 只需要判断当前字符是不是等于10开头,不等于10开头就一定是一个单字符或者一个多字符, 然后计数器+1即可

具体有兴趣的童鞋可参阅http://stackoverflow.com/questions/3911536/utf-8-unicode-whats-with-0xc0-and-0x80

猜你喜欢

转载自www.cnblogs.com/pengwang52/p/11306696.html

UTF-8&Unicode,0xC0和0x80是什么？

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 3: invalid start byte

UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 3131: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 344: invalid start byte报错解决方案

int $0x80系统调用的idea

(unicode error) 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

geany出错SyntaxError: (unicode error) ‘utf-8’ codec can’t decode byte 0xc4 in position 0:

IAR编译错误Error[e16]: Segment ISTACK (size: 0xc0 align: 0) is too long for segment definition. At least 0x8 more bytes needed. The problem occurred while processing the segment

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 0: illegal multibyte sequence

response.read().decode() UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc6 in position 80: i

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc0 in position 9: ordinal not in range(128)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc0 in position 7: ordinal not in range(128)

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

Python 'gbk' codec can't decode byte 0x80

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 16: illegal multibyte sequence

常识java-错误: 编码 GBK 的不可映射字符 (0x80)

‘gbk‘ codec can‘t decode byte 0x80 in position 2: illegal multibyte sequence

解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 0: illegal multibyte sequence问题

Error[e16]: Segment ISTACK (size: 0xc0 align: 0) is too long for segment definition.

解决\xc2\xa0是什么

XPath解析中的 'Element a at 0x5308a80'是什么？

使用Visual studio开发Python报错SyntaxError: (unicode error) ‘utf-8‘ codec can‘t decode byte 0xc7 in positi

python | 读文件编码问题 | UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 34: illegal mu

python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib

提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequenc

iOS逆向----使用IDA的Patch更改汇编或二进制代码( patch svc #0x80 with nop)

'gbk' codec can't decode byte 0x80 in position的一个解决办法

python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multi

python 读取文件时报错 UnicodeDecodeError:‘gbk‘ codec can‘t decode byte 0x80 in position 100

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)