记录正则表达式符号

'.' : 匹配任意单个字符;如:a.b的结果为,abc,aic,a&c等。

'\' : 转义字符;把字符改变为原来的意思。如,'\.'表示一个点。

'[ ]' : 字符集,对应字符集中的任意字符。如a[bcd]的结果为,ab,ac,ad。

'\d' : 匹配 个数字字符。等价于[0-9]。

'\D' : 匹配 个非数字字符。等价于[^0-9]。

'\s' : 匹配任何空白字符,包括空格、制表符、换页符等.等价于[\f\n\t\v] 。

'\S' : 匹配任何非空白字符。等价于[^\f\n\r\t\v] 。

'\w' : 匹配包括下画线的任何单词字符。等价于[A-Za-z0-9_]。

'\W : 匹配任何非单词字符。等价于[^A-Za-z0-9_]。

'*' : 匹配前一个字符0或无限次。例如,ab*c匹配ac,abc,abbc,abbbc等。

'+' : 匹配前一个字符1或无限次。至少匹配一次。例如,ab+c匹配abc,abbc,abbbc等。

'?' : 匹配前一个字符0或1次。例如,ab?匹配ac,abc.

'{m}' : 匹配前一个字符m次。例如,ab{3}c匹配abbbc.

'{m,n}' : 匹配前一个字符m至n次。例如,ab{1,3}c匹配abc,abbc,abbbc.

'^' : 匹配字符串的开头。

'$' : 匹配字符串的结尾。

'\A' : 匹配字符串的结尾。

'\Z' : 匹配字符串的结尾。

爬虫常用:

(.*?) : '( )'表示括号的内容作为返回结果。'.*?' 是非贪心算法,匹配任意的字符。

猜你喜欢

转载自blog.csdn.net/weixin_45314061/article/details/131133620