python网络爬虫正则表达式 - 代码天地

python网络爬虫正则表达式

其他 2018-11-27 10:31:09 阅读次数: 0

正则字符串
正则字符串：就是任意可以用一系列线性规则构成的字符串。
例如：
aabbbbb(cc)(d| )
将其分解为

aa*：a后面跟着的a*表示“重复任意次a，包括0次”，这样就可以保证字母a至少出现一次。
bbbbb：没啥特别，5次b
(cc)*表示有任意次两个c（可以是0次）
(d|):增加一个竖线在表达式里表示“这个或者那个”。表示最后可以跟着与一个d或者空格
一个典型的利用正则表达式的例子是，邮箱地址

[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|net|edu)

其中：

邮箱地址的第一部分至少包括一种内容：大写字母，小写字母，数字0-9，点号.加号+或者下划线_:[A-Za-z0-9._+]+:这个表示括号里的任意一个符号都可能出现，后面的+表示这些字符都可以出现多次，且至少出现一次
@：这很直接
[A-Za-z]+：符号@后面只能出现字母
(com|org|net|edu)：一般邮箱的后缀是其中四个之一
正则表达式的常用符号

符号	含义	例子	匹配结果
*	匹配前面的字符，子表达式或者括号里的字符0次或者多次	ab	aaaa,aabb,aaab,bbbb
+	匹配前面的字符，子表达式或者括号i里的字符至少一次	a+b+	aaabb,aabb,ab
[]	匹配任意一个字符，相当于任意选择一个	[A-Z]*	APPLE,CAPTIALS,QWERTY
()	表达式编组（在正则表达式的规则里编组会优先运行）	(ab)	aaabaab
{m,n}	匹配前面的字符，子表达式或者括号里的字母 m到n次(包括m和n次)	a{2，3}b{2,3}	aabbb,aaabb
[^]	匹配任意一个不在中括号里的字符	[^A-Z]*	apple,lowercase
\|	匹配任意一个竖线分割的字符	b(a\|i\|e)d	bad,bid,bed
.	匹配任意单个符号	b.d	bad,bed
^	指字符串开始位置的字符或子表达式	^a	apple,asdf,a
\	转义字符
$	常用于正则表达式的末尾，表示从字符串末端匹配，如果不用他，每个正则表达式实际上都带着.*模式，只会从字符串开头匹配	[A-Z][a-z]	ABCabc,zzzyx
?!	“不包含”。通常放在字符或者正则表达式的前面，表示字符不能出现在目标字符串中，比较难用

猜你喜欢

转载自blog.csdn.net/shine10076/article/details/83793185

网络爬虫的正则表达式

Python 爬虫_正则表达式

Python爬虫（正则表达式）

Python爬虫--正则表达式

Python爬虫与正则表达式

python爬虫正则表达式

python爬虫——正则表达式

【python爬虫】正则表达式

2.046_Python网络爬虫_正则表达式

Python网络爬虫进阶+正则表达式

Python网络爬虫之正则表达式（三）

Python 网络爬虫笔记6 -- 正则表达式

python网络爬虫正则表达式

python网络爬虫正则表达式

python网络爬虫--正则表达式

Python网络爬虫：爬虫原理、正则表达式、正则表达式函数、urllib基础、超时设置

爬虫之正则表达式

爬虫：正则表达式

爬虫（六）正则表达式

正则表达式爬虫1

爬虫入门_正则表达式

爬虫（7）——正则表达式

爬虫&正则表达式学习

爬虫常用正则表达式

爬虫系列-正则表达式

【Pyhton 爬虫】正则表达式

爬虫（二）--正则表达式

爬虫正则表达式

正则表达式及网络编程

Python：正则表达式-2

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)