协程获取斗图啦全网表情包 - 代码天地

协程获取斗图啦全网表情包

其他 2019-10-24 11:37:17 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/gklcsdn/article/details/102681555

# @Time : 2019/10/22 11:26
# @Author : GKL
# FileName : spider.py
# Software : PyCharm

import re
import time

import gevent
from gevent import monkey; monkey.patch_all()
import requests


class Spider(object):
    """
    通过协程获取斗图啦表情包
    """
    def __init__(self):
        # self.url = 'http://www.doutula.com/article/list/?page=1'
        self.page = 1

    @classmethod
    def get_url(cls, url):
        """
        获取图片地址
        :param url:
        :return:
        """
        resp = requests.get(url).text
        url_list = re.findall(r'data-original="(.*?)"', resp)
        name_list = re.findall(r'alt="(.*?)"', resp)
        return url_list, name_list

    @classmethod
    def download(cls, url_list, name_list):
        """
        图片下载并保存到本地
        :param url_list:
        :param name_list:
        :return:
        """
        for url, name in zip(url_list, name_list):

            # 获取图片后缀名
            suffix = url.split('.')[-1]

            # 拼接图片保存到本地的名字
            name = '{}.{}'.format(name, suffix) if name else ' .{}'.format(suffix)
            print(name)

            # 获取图片二进制数据
            response = requests.get(url).content

            # 异常捕获, 舍去命名不规范的图片
            try:
                with open('./img/{}'.format(name), 'wb') as f:
                    f.write(response)
            except OSError as e:
                print(e)


    def run(self, url):
        """
        实现主要逻辑
        :param url:
        :return:
        """
        print(url)
        url_list, name_list = self.get_url(url)
        self.download(url_list, name_list)
        self.page += 1
        next_url = 'http://www.doutula.com/article/list/?page={}'.format(self.page)

        # 设置延时, 防止访问过快封ip
        time.sleep(5)
        self.run(next_url)


if __name__ == '__main__':
    s = Spider()
    # s.run('http://www.doutula.com/article/list/?page=1')
    # 协程调用方式
    gevent.joinall([gevent.spawn(s.run, 'http://www.doutula.com/article/list/?page={}'.format(i)) for i in range(5)])

猜你喜欢

转载自blog.csdn.net/gklcsdn/article/details/102681555

协程获取斗图啦全网表情包

python 爬取表情包——斗图啦

【python--爬虫】斗图啦表情包爬虫

PYTHON 2.7爬虫获取斗图啦网站的表情包数据（区分gif和jpg图片格式）

爬虫_斗图啦_表情包下载

Python爬虫入门教程，多线程采集斗图啦表情包！

spider_爬取斗图啦所有表情包（图片保存）

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

Python制作gif表情包生成工具，斗图再也不会输啦

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

Python爬虫入门教程第十三讲：斗图啦表情包多线程爬取

python生成表情包斗图，试问天下谁不服

Python自动生成表情包斗图再无对手！

斗图？教你用Python制作表情包

《卡死你3000》之表情包斗图乐

爬取斗图网表情包之后斗图会输？不存在的

利用斗图啦网站API批量下载表情图片

大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝

斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！

Python多线程爬虫教你如何快速下载表情包，告别斗图斗不赢的烦恼！

Python自动生成表情包，python在手，从此斗图无敌手

程序员斗图时最爱用哪些表情包？拿走不谢！

Python自动生成表情包，python在手，从此斗图无敌手！

多线程爬取表情包，斗图再也难不倒我了

斗图神器--纯前端实现视频转GIF制作表情包（已开源）

自从会了Python在群里斗图就没输过，Python批量下载表情包！

Python项目实战:爬取斗图网表情包图片

多线程采集表情包，下一届斗图王者属于你

真香警告！多线程分类表情包爬取，一起斗图叭(*^▽^*)~~~

Python 爬取表情包-斗图不会输在起跑线

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)