python爬虫简单爬取爱思助手壁纸

# 网络安全法最高可获得刑法
print("正则爬取地址")
# 访问网址的库
import urllib.request
import re
name = 1
for i in range(1,4):
    html=urllib.request.urlopen("https://www.i4.cn/wper_1_0_0_%s.html"%i)
    print("========第%s页数据爬取"%i)
    data=html.read()
# print(data)

# 分离壁纸
    r=r"[a-zA-z]+://[^\s]*.jpg"
# 将壁纸的正则表达式做成匹配模型
    pat=re.compile(r)
# 将页面的所哟数据和匹配模型进行匹配
    imgList=re.findall(pat,str(data))
# 删除最后五个不是壁纸的地址  一个简单的数据清洗
    del imgList[-5:]
# print(imgList)  i代表数据,是每一个地址的网址
# 循环访问每一个壁纸的网址

    for i in imgList:
        # print(i)
        # 单数,高清图
        if(name%2):
            # 检索下载每一个壁纸到img文件夹
            urllib.request.urlretrieve(i,"img/%s.jpg"%name,)
            print("完成第%s几张壁纸下载"%name)
        else:
            pass
        name+=1

猜你喜欢

转载自blog.csdn.net/weixin_42835381/article/details/108642804