版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shuaixingrumo/article/details/75115891
一般中文部分的unicode 值是4e00 - 9f5a, 但是要注意, 这是基本汉字编码范围, 还有一些扩展集, 后面介绍
下面例子标识我们要查找一段字符串中的汉字:
import re
s = "中华人民共和国, 简称中国, 英文China"
words = re.findall (r"[\u4e00-\u9f5a]+", s)
for word in words:
print(word)
输出结果:
===================== RESTART: F:\python_project\test.py =====================
中华人民共和国
简称中国
英文
>>>
这就找出了文本中的汉字部分
下面介绍一下扩展集, 并附上一张汉字编码表:
2E80-A4CF
包 含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中 日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字 根
F900-FAFF
扫描二维码关注公众号,回复:
2986597 查看本文章
中日朝兼容表意文字
FE30-FE4F
中日朝兼容形式
汉字编码表:
字符集 | 字数 | Unicode 编码 |
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 38字 | 9FA6-9FCB |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
康熙部首 | 214字 | 2F00-2FD5 |
部首扩展 | 115字 | 2E80-2EF3 |
兼容汉字 | 477字 | F900-FAD9 |
兼容扩展 | 542字 | 2F800-2FA1D |
PUA(GBK)部件 | 81字 | E815-E86F |
部件扩展 | 452字 | E400-E5E8 |
PUA增补 | 207字 | E600-E6CF |
汉字笔画 | 36字 | 31C0-31E3 |
汉字结构 | 12字 | 2FF0-2FFB |
汉语注音 | 22字 | 3105-3120 |
注音扩展 | 22字 | 31A0-31BA |
〇 | 1字 | 3007 |