python正则表达式中文匹配 - 代码天地

python正则表达式中文匹配

其他 2018-08-31 21:45:58 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/shuaixingrumo/article/details/75115891

一般中文部分的unicode 值是4e00 - 9f5a，但是要注意，这是基本汉字编码范围，还有一些扩展集，后面介绍

下面例子标识我们要查找一段字符串中的汉字：

import re

s = "中华人民共和国， 简称中国， 英文China"

words = re.findall (r"[\u4e00-\u9f5a]+", s)
for word in words:
    print(word)

输出结果：

===================== RESTART: F:\python_project\test.py =====================
中华人民共和国
简称中国
英文
>>>

这就找出了文本中的汉字部分

下面介绍一下扩展集，并附上一张汉字编码表：

2E80－A4CF　

包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

F900-FAFF

扫描二维码关注公众号，回复： 2986597 查看本文章

中日朝兼容表意文字

FE30-FE4F

中日朝兼容形式

汉字编码表：

字符集	字数	Unicode 编码
基本汉字	20902字	4E00-9FA5
基本汉字补充	38字	9FA6-9FCB
扩展A	6582字	3400-4DB5
扩展B	42711字	20000-2A6D6
扩展C	4149字	2A700-2B734
扩展D	222字	2B740-2B81D
康熙部首	214字	2F00-2FD5
部首扩展	115字	2E80-2EF3
兼容汉字	477字	F900-FAD9
兼容扩展	542字	2F800-2FA1D
PUA(GBK)部件	81字	E815-E86F
部件扩展	452字	E400-E5E8
PUA增补	207字	E600-E6CF
汉字笔画	36字	31C0-31E3
汉字结构	12字	2FF0-2FFB
汉语注音	22字	3105-3120
注音扩展	22字	31A0-31BA
〇	1字	3007

猜你喜欢

转载自blog.csdn.net/shuaixingrumo/article/details/75115891

Python中正则表达式对中文的匹配问题

Python匹配中文的正则表达式

python正则表达式中文匹配

Python正则表达式匹配中文

Python 正则表达式匹配中文

python中文正则表达式匹配

正则表达式匹配中文

中文正则表达式匹配-正则中文匹配

中文正则表达式匹配正则中文匹配

Python 正则表达式匹配

匹配中文正则表达式代码实例

java匹配中文的正则表达式

ultraedit中文匹配正则表达式

android正则表达式匹配中文正解

hive 正则表达式匹配中文

oracle正则表达式匹配中文

Notepad++ 匹配中文的正则表达式

正则表达式 preg_match 匹配中文

正则表达式匹配中文时发现的问题

通用正则表达式与python中的正则匹配

python正则表达式匹配出中文行政地名

python中正则表达式在中文字符串匹配时的坑

常用正则表达式大全常用正则表达式大全！（例如：匹配中文、匹配html）

[Python]Python中使用正则表达式匹配

Python正则表达式---全部能匹配的子串迭代器finditer及findall及以中文匹配部分中文 Python正则表达式---全部能匹配的子串迭代器finditer及findall及以中文匹配部分中文

python正则表达式匹配时间与日期

python 正则表达式匹配数字练习记录

剑指offer：正则表达式匹配（Python）

Python 正则表达式匹配邮箱地址

python正则表达式匹配ip地址

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)