就是把url换成了通配符
比较简单
# -*- coding: utf-8 -*-
import requests
import re
import os
if __name__ == '__main__':
#创建一个文件夹,保存所有图片
if not os.path.exists('./MMLibs'):
os.mkdir('./MMLibs')
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
}
#设置通用url通用模板
url='https://www.2717.com/tag/434_%d.html'
#pageNum=2
for pageNum in range(0,6):
#对应页码的url
new_url= format (url % pageNum)
#使用通用爬虫对url对应的页面整张爬取
page_text = requests.get(url=new_url,headers=headers).text
#使用聚焦爬虫进行解析
ex = '<li>.*?<img.*?src="(.*?)".*?</li>'
img_src_list= re.findall(ex,page_text,re.S)
#print(img_src_list)
for src in img_src_list:
img_data = requests.get(url=src,headers=headers).content
#生成图片名称
img_name= src.split('/')[-1]
#图片储存路径
imgPath = './MMLibs/'+img_name
with open(imgPath,'wb')as fp:
fp.write(img_data)
print("第%d页" %pageNum,img_name,"下载成功")