爬取某网的妹纸图 - 代码天地

爬取某网的妹纸图

其他 2018-11-19 10:00:54 阅读次数: 0

自己动手编写了一个爬虫，用来爬取某网站的妹纸图片。

先介绍下思路吧

首先：获取包含某页图片的HTML代码，找到各个分页的后缀规律

其次：找到包含单个图片的xpath

最后：储存在本地就好了

多的不说：上代码，有什么不明白的欢迎留言。

import requests
from lxml import etree


class Get_image():
    def __init__(self, url):
        self.headers = {
            "User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
            }
        self.urls = url

    def parse_multi_page(self):
        # 15 代表每页的图片个数  4 代表 爬取的页数
        number = [[j + i * 15 for j in range(1,16)] for i in range(4)]

        page = 1
        for url,index in zip(self.urls, number):
            res = requests.get(url, self.headers)
            html = etree.HTML(res.content)

            parse_result = html.xpath("//div[@class='pic']//li//a/img/@src")


            # 有多少个jpg 就有多少个num(图片下标)
            for image_url, num  in zip(parse_result,index):
                res = requests.get(image_url, self.headers)
                with open('girl/{}.jpg'.format(num), "ab") as f:
                    f.write(res.content)

            print("第" + str(page) + "页抓取完毕")
            page = page + 1



def main():
    start_url = "http://www.hunter-its.com/m/{}.html"
    url = []
    # 5 - 1 代表爬取的页数
    for i in range(1,5):
        temp_url = start_url.format(i)
        url.append(temp_url)
    get_image = Get_image(url)
    get_image.parse_multi_page()



if __name__ == "__main__":
    main()

猜你喜欢

转载自blog.csdn.net/weixin_42183288/article/details/81171258

爬取某网的妹纸图

scrapy框架小白实战--爬取煎蛋妹纸图

改进版爬虫爬取漂亮妹纸图2

改进版爬虫爬取漂亮妹纸图1

python2爬取妹纸图片

用Python构建一个简单的爬虫系统：爬取妹纸图片，建议收藏

用 Python 爬取网易严选妹子内衣信息，探究妹纸们的偏好

用Python大神Kennethreitz新框架request-html爬妹纸图遇坑记

python爬取网图

Python 爬取图虫网图片

python爬取图虫网图库

shell爬取斗图网

爬取斗图网的图片

爬取校花网美眉图

爬取趣图网的素材

老司机教你用python来爬取妹子图，带好卫生纸

某宝爬取

喜欢的妹纸

爬虫项目：scrapy爬取昵图网全站图片

爬取包图网vip短视频

使用WebCollector爬取包图网的音乐素材

教你用Python爬取图虫网

Python爬取千图网PS素材图片

Python爬虫教程：图虫网多线程爬取

python学习之爬取煎蛋网美女图

万能python，用多线程秒爬那些羞羞的妹纸们，纸巾呢？

爬取校花网

校花网爬取

深网爬取

爬取桌面网

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)