初学python爬虫，记录一下学习过程，requests xpath 提取图片并保存02 - 代码天地

初学python爬虫，记录一下学习过程，requests xpath 提取图片并保存02

其他 2020-03-03 15:52:31 阅读次数: 0

紧接上一次的首页图片保存，这篇是提取详情页的图片并保存，且第一页的地址又与以后的地址不一样，需要单独处理。

'''
requests库请求目标网址

xpath提取网页的图片地址

面向函数编程

提取首页与以面网页不一样的图片
'''
#导入第三方库
import requests
from lxml import etree
import time
#useragent库
from fake_useragent import UserAgent
#定义随机的UserAgent
ua = UserAgent()
headers = {'User-Agent':ua.random}
#定义得到html文本的函数
def get_html(url):
    time.sleep(1)
    #如果用.text()则出现乱码的情况，所以采用utf-8方式解码
    html = requests.get(url,headers = headers).content.decode('utf-8')
    return html
#定义解析html的函数
def paser_html(html):
    #新建空列表
    images_url = []
    e = etree.HTML(html)
    #提取图片地址
    image_urls = e.xpath('//div[@class="img_box"]/a/img/@src')
    #遍历循环地址并添加到空列表中
    for image_list in image_urls:
        images_url.append(image_list)
    return images_url
#定义保存图片的函数
def save_data(images_url):
    for image in images_url:
        #请求每一个图片的地址
        r = requests.get(image,headers = headers)
        time.sleep(1)
        #图片的名字
        file_name = image.split('/')[-1]
        #保存图片
        with open(file_name,'wb') as f:
            f.write(r.content)
#定义主函数
def main():
    #第一页的url不一样需要单独处理
    for page in range(70):
        if page == 1:
            url = 'https://www.yeitu.com/meinv/xinggan/20200228_18602.html'
            html = get_html(url)
            images_url = paser_html(html)
            save_data(images_url)
        else:
            url = 'https://www.yeitu.com/meinv/xinggan/20200228_18602_%d.html'%page
            html = get_html(url)
            images_url = paser_html(html)
            save_data(images_url)
main()

warm...

发布了18 篇原创文章 · 获赞 14 · 访问量 1293

私信关注

猜你喜欢

转载自blog.csdn.net/qq_46292926/article/details/104575214

初学python爬虫，记录一下学习过程，requests xpath 提取图片并保存02

初学python爬虫，记录一下学习过程，requests xpath提取图片地址并保存图片

初学python爬虫，记录一下学习过程，requests xpath os 提取MM图片并保存本地 03

初学python爬虫，记录一下学习过程，xpath提取文本

初学python爬虫，记录一下学习过程，xpath提取属性

初学python爬虫，记录一下学习过程，xpath多属性匹配

初学python爬虫，记录一下学习过程，xpath属性多值匹配

初学python爬虫，记录一下学习过程，requests库模拟登录02，使用 for循环处理cookies

初学python爬虫，记录一下学习过程，正则表达式提取图片网址

初学python爬虫，记录一下学习过程，正则表达式提取文本

初学python爬虫，记录一下学习过程，正则表达式综合练习，提取电影名称和图片网址

爬虫 xpath (数据提取)

爬虫Task 02 Xpath

提取数据之一：xpath

初学python爬虫，记录一下学习过程，requests库使用代理

初学python爬虫，记录一下学习过程，requests库获取网页代码

初学python爬虫，记录一下学习过程，requests库模拟登录01

使用爬虫xpath提取数据-爬取美女图片

python爬虫 selector xpath提取网页内容

Python爬虫之（九）数据提取-XPath

Python 爬虫网页内容提取工具xpath

爬虫学习四（数据提取-XPath）

python xpath图片爬取

python爬虫-简单使用xpath下载图片

爬虫-5-数据提取-正则，xpath

使用Python：XPath提取猫眼电影

Python Xpath解析数据提取基本使用

python---------xpath提取数据------打破局限

初学python爬虫，记录一下学习过程，requests库session处理cookies并登录网址

初学python爬虫，记录一下学习过程，requests库处理不信任证书问题

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)