python批量爬去指定关键词图片代码

话不多说看代码;

import requests
from bs4 import BeautifulSoup
import os

def download_images(keyword, num_images):
    # 创建文件夹来保存图片
    if not os.path.exists(keyword):
        os.makedirs(keyword)
        
    # 构建搜索URL
    search_url = f'https://www.google.com/search?q={keyword}&tbm=isch'
    
    # 发送HTTP请求并获取响应内容
    response = requests.get(search_url)
    response.raise_for_status()
    
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 查找所有图片链接
    image_links = soup.find_all('img', limit=num_images)
    
    # 下载图片
    count = 0
    for link in image_links:
        image_url = link['src']
        if image_url.startswith('https://'):
            response = requests.get(image_url, stream=True)
            response.raise_for_status()
            
            # 保存图片到指定文件夹
            file_name = os.path.join(keyword, f'image_{count}.jpg')
            with open(file_name, 'wb') as file:
                for chunk in response.iter_content(8192):
                    file.write(chunk)
            
            count += 1
            if count == num_images:
                break
    
    print(f'{count}张图片已下载到{keyword}文件夹')

# 示例用法：下载5张猫的图片
download_images('猫', 5)

请确保安装了requests和beautifulsoup4模块；

（可以通过pip install requests beautifulsoup4进行安装）

在上述代码中，我们首先定义了一个download_images函数，它接受关键词和要下载的图片数量作为参数。然后，我们创建一个以关键词命名的文件夹来保存图片，并构建Google图片搜索的URL。

使用requests模块发送HTTP请求，并使用BeautifulSoup解析HTML响应内容。然后，我们通过查找所有图片链接并依次下载图片。

注意，在下载图片时，我们使用stream=True参数来启用流式下载，这有助于处理大型图像文件。下载的图片将保存在以关键词命名的文件夹中，文件名按照image_0.jpg、image_1.jpg等命名。

你可以调用download_images函数并传入关键词和要下载的图片数量来开始批量下载。在示例中，我们下载了5张猫的图片。

python批量爬去指定关键词图片代码

猜你喜欢