爬虫之多线程、异步 - 代码天地

爬虫之多线程、异步

其他 2019-04-03 13:36:07 阅读次数: 0

1.使用传统方式爬取“斗图啦”网站的图片

#-*-coding = utf-8 -*-
import requests
from lxml import etree
import re
import os.path
from urllib import request

def parse_page(url):
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
    response = requests.get(url=url,headers=headers)
    text = response.text
    parse = etree.HTMLParser(encoding='utf-8')
    html = etree.fromstring(text,parser=parse)
    images = html.xpath('//div[@class="page-content text-center"]//a//img[@class!="gif"]')
    for img in images:
        img_url = img.get("data-original")
        img_name = img.get("alt")
        img_name = re.sub(r'[?？！!./,，。]','',img_name)
        img_postfix = os.path.splitext(img_url)[1]
        img_save_path = os.path.join('E:\study',img_name+img_postfix)
        request.urlretrieve(img_url,img_save_path)

def main():
    for page in range(1,101):
        url = 'https://www.doutula.com/photo/list/?page=%d' %page
        parse_page(url)
       

if __name__=='__main__':
    main()

View Code

2.使用生产者与消费者模式多线程下载表情包

>>>>>>>>>>待续

猜你喜欢

转载自www.cnblogs.com/wuxunyan/p/10648135.html

爬虫之多线程、异步

python异步爬虫(1)之多线程

自定义爬虫架构之多线程爬虫与异步爬虫

爬虫进阶之多线程爬虫

爬虫入门实践之多线程爬虫

网络爬虫之多线程爬虫

异步通知之多线程实现

C#基础之多线程与异步

Python爬虫之多线程，多进程

Python爬虫之多线程浅谈

05讲：python爬虫之多线程

爬虫进阶之多线程爬虫问题详解

Python之多线程爬虫抓取网页图片

【新手必学】Python爬虫之多线程实战

Java之多线程

Qt之多线程

python之多线程

Android之多线程

JavaSE之多线程

JavaScript之多线程

Spring 之多线程

并发之多线程

iOS之多线程

Spring之多线程

爬虫学习之第四章爬虫进阶之多线程爬虫

【Python3 爬虫】U25_多线程爬虫之多线程共享全局变量及锁机制

python并发编程之多进程、多线程、异步和协程详解

python并发编程之多进程、多线程、异步和协程

spring之多线程使用

知识梳理之多线程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)