python爬虫网站图像

目标

生活苦累过程中,享受一下其他方面带来的乐趣,目标是网络爬虫,也了解了一下网页制作相关的内容,整理于此,便于自己日后温故以及供大家一起学习,提出自己的宝贵意见

网站

图像网站:https://www.58pic.com/
在这里插入图片描述
内容
选择网站https://m.58pic.com/newpic/44666739.html

在这里插入图片描述

过程:

爬取这些小图片
在这里插入图片描述

  1. 鼠标右键网页选择检测
  2. 点击下图中的箭头手势
    在这里插入图片描述
  3. 选择图像后找到对应链接 (https://preview.qiantucdn.com/auto_machine/2023031…78c1be-f9a1-45bc-88bc-e9efe1269b58.jpg!qt_kuan320)
    在这里插入图片描述
  4. 鼠标右键查看网页源代码
    在这里插入图片描述
  5. 可以看到相关的图像链接
    在这里插入图片描述
  6. 通过正则化表达式将此链接进行查询,并进行图像下载即可

代码实现

import os
import time

import requests
import re


if __name__ == "__main__":
    url = "https://m.58pic.com/newpic/44666739.html"
    headers = {
    
    'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Mobile Safari/537.36'}
    
    '''获取网页信息'''
    response = requests.get(url=url, headers=headers, timeout=300)
    html = response.text
    # print(ret.text)

    '''解析网页'''

    urls = re.findall('data-original=".*?"', html)
    print(urls)

    save_path = "images"
    os.makedirs(save_path, exist_ok=True)
    '''保存图像'''
    for idx, url in enumerate(urls):
        time.sleep(1) # 密集请求容易对他人服务器造成影响
        img = 'http://' + url.split('=')[-1][3:-1]
        response = requests.get(img, headers=headers)
        # 图像名称可以根据自己的情况进行设置
        with open(save_path+"/"+str(idx)+'.jpg', 'wb') as f:
            f.write(response.content)

好用的相关内容:
http://c.biancheng.net/view/2011.html

https://www.bilibili.com/video/BV1MK4y1n7TT/spm_id_from=333.337.search-card.all.click&vd_source=8bcf27281d52eb1d4b92e7d635cf444d

https://www.bilibili.com/video/BV1qJ411S7F6/?spm_id_from=333.337.search-card.all.click&vd_source=8bcf27281d52eb1d4b92e7d635cf444d

猜你喜欢

转载自blog.csdn.net/frighting_ing/article/details/129963587