基础爬虫-----正则表达式(原子介绍)

原子:是正则表达式最基本的组成单位,每个正则表达式中至少要包含一个原子,常见的类型:

① 普通字符 

②非打印字符

③通用字符

④原子表

①的案例代码:

# 正则表达式需要导入的模块
import re
# 普通字符作为原子
string = "taoyunjiaoyu"
# 想要提取的内容:
data = "yun"
# 使用正则表达式里的函数
ret = re.search(data,string)
print(ret)
①的运行结果:

②的案例代码:

# 非打印字符作为原子
# 非打印字符:像\n(换行符)  \t(制表符)等(存在\n)
string = '''taoyunjiaoyu
baidu
'''
data = "\n"
ret =re.search(data,string)
print(ret)
②的运行结果:

②的案例代码2(如果不存在\n会怎么样)

# 非打印字符作为原子
# 非打印字符:像\n(换行符)  \t(制表符)等
string = '''taoyunjiaoyubaidu'''
data = "\n"
ret =re.search(data,string)
print(ret)
②的案例代码2(如果不存在\n会怎么样)的运行结果-----None

③的案例代码:

# 通用字符可以作为原子:
# \w 字母、数字、下划线
# \W 除字母、数字、下划线
# \d 十进制数字
# \D 除十进制数字
# \s 空白字符
# \S 除空白字符
string = '''taoyunj i51468525aoyubaidu'''
# 几个\d几个数字
data = "\s\w\d\d\d"
ret =re.search(data,string)
print(ret)
③的运行结果:

④的案例代码:

# 原子表:
#[xyz]提取原子表其中一个元素 如果在原子表中出现^即非的意思([^abc])
string = "taoyunj i51468525aoyubaidu"
# 几个\d几个数字
data = "tao[xyz]un"
data1= "tao[yun]"
ret =re.search(data,string)
ret1=re.search(data1,string)
print(ret,ret1)
# print(ret1)
④的运行结果:
发布了98 篇原创文章 · 获赞 34 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_42133768/article/details/96473087