python批量爬去指定关键词图片代码

话不多说看代码;

import requests
from bs4 import BeautifulSoup
import os

def download_images(keyword, num_images):
    # 创建文件夹来保存图片
    if not os.path.exists(keyword):
        os.makedirs(keyword)
        
    # 构建搜索URL
    search_url = f'https://www.google.com/search?q={keyword}&tbm=isch'
    
    # 发送HTTP请求并获取响应内容
    response = requests.get(search_url)
    response.raise_for_status()
    
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 查找所有图片链接
    image_links = soup.find_all('img', limit=num_images)
    
    # 下载图片
    count = 0
    for link in image_links:
        image_url = link['src']
        if image_url.startswith('https://'):
            response = requests.get(image_url, stream=True)
            response.raise_for_status()
            
            # 保存图片到指定文件夹
            file_name = os.path.join(keyword, f'image_{count}.jpg')
            with open(file_name, 'wb') as file:
                for chunk in response.iter_content(8192):
                    file.write(chunk)
            
            count += 1
            if count == num_images:
                break
    
    print(f'{count}张图片已下载到{keyword}文件夹')

# 示例用法:下载5张猫的图片
download_images('猫', 5)

请确保安装了requestsbeautifulsoup4模块;

(可以通过pip install requests beautifulsoup4进行安装)

在上述代码中,我们首先定义了一个download_images函数,它接受关键词和要下载的图片数量作为参数。然后,我们创建一个以关键词命名的文件夹来保存图片,并构建Google图片搜索的URL。

使用requests模块发送HTTP请求,并使用BeautifulSoup解析HTML响应内容。然后,我们通过查找所有图片链接并依次下载图片。

注意,在下载图片时,我们使用stream=True参数来启用流式下载,这有助于处理大型图像文件。下载的图片将保存在以关键词命名的文件夹中,文件名按照image_0.jpgimage_1.jpg等命名。

你可以调用download_images函数并传入关键词和要下载的图片数量来开始批量下载。在示例中,我们下载了5张猫的图片。

猜你喜欢

转载自blog.csdn.net/m0_57790713/article/details/132338475