import requests,re url='https://movie.douban.com/top250' urlcontent=requests.get(url).text #正则 ''' 实现步骤: 1,先逐个匹配字段 2.对各个字段正则进行拼接 3,实现整体抓取 id:.*?(\d+)</em.*? title:'title.*?>(.*?)<' rat:.*?average.*?(\d+.\d).*? comment_num:.*?(\d+)人.* ''' com=re.compile('.*?(\d+)</em.*?title.*?>(.*?)<.*?average.*?(\d+.\d).*?(\d+)人',re.S) ret=com.finditer(urlcontent) for i in ret: print({'id':i.group(1),'title':i.group(2),'rat':i.group(3),'comment_num':i.group(4)})
python爬虫匹配实现步骤
猜你喜欢
转载自www.cnblogs.com/huay/p/10846082.html
今日推荐
周排行