正则表达式(.*?) 或 (.*+)

转:

正则表达式在爬虫中的应用,可以更好的取自己想要的数据,有些时候也可以应对那些反爬取的网站。

后边多一个?表示懒惰模式。
必须跟在*或者+后边用
如:<img src="test.jpg" width="60px" height="80px"/>
如果用正则匹配src中内容非懒惰模式匹配
src=".*"
匹配结果是:src="test.jpg" width="60px" height="80px"
意思是从="往后匹配,直到最后一个"匹配结束
 
懒惰模式正则:
src=".*?"
结果:src="test.jpg"
因为匹配到第一个"就结束了一次匹配。不会继续向后匹配。因为他懒惰嘛。
 
.表示除\n之外的任意字符
*表示匹配0-无穷

+表示匹配1-无穷

猜你喜欢

转载自www.cnblogs.com/sggggr/p/12368890.html