利用正则表达式识别文本中的中文 - 代码天地

利用正则表达式识别文本中的中文

其他 2023-09-06 17:37:04 阅读次数: 0

我们在利用正则表达式识别中文时，使用Unicode字符范围来匹配中文数字，而Unicode的范围为\ue4e00-\u9fff。

import re
def extract_chinese_chars(code):
    chinese_pattern = '[\u4e00-\u9fff]+'  # 匹配中文字符
    chinese_chars = re.findall(chinese_pattern, code)
    return chinese_chars
# 测试代码
code = '''梅西是最好的，messi is the best'''
chinese_chars = extract_chinese_chars(code)
print("中文字符:", chinese_chars)

如果要对字符类进行匹配，我们需要更改pattern为[a-zA-Z]

import re
def extract_chinese_chars(code):
    english_pattern = '[a-zA-Z]+'  # 匹配中文字符
    chinese_chars = re.findall(english_pattern, code)
    return chinese_chars
# 测试代码
code = '''梅西是最好的，messi is the best'''
english_chars = extract_chinese_chars(code)
print("中文字符:", english_chars)

正则表达式具有强大的文本模式匹配，对字符串进行搜索，匹配，替换和提取。

猜你喜欢

转载自blog.csdn.net/qq_52351946/article/details/131154197

利用正则表达式识别文本中的中文

正则表达式在网页文件中文本识别匹配的应用

利用正则表达式来替换文本中匹配正则的内容

java 正则表达式获取文本中数字

用正则表达式提取文本中的日期

识别正则表达式的匹配

正则表达式验证中文

php的中文正则表达式

正则表达式匹配中文

正则表达式提取中文

中文正则表达式

中文正则表达式匹配-正则中文匹配

中文正则表达式匹配正则中文匹配

【超详总结/理解：正则表达式】特点/元字符/正则表达式中的标志位-flag/RegExp/重复操作与后向引用/匹配模式/表达邮箱/正则表达式对象的方法/利用正则表达式限制网页表单里的文本框输入内容

Perl正则表达式(3) - 用正则表达式处理文本

Python中的正则表达式

Java中的正则表达式

JS中的正则表达式 <<<

js中的正则表达式

Nginx中的正则表达式

oracle中的正则表达式

Python 中的正则表达式

Php中的正则表达式

ORACLE 中的正则表达式

正则表达式中^和$

JavaScript 中的正则表达式

shell中的正则表达式

FME中的正则表达式

正则表达式中的方法

Linux中的正则表达式

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)