python 利用asynico+aiohttp模块实现简单的异步爬虫 - 代码天地

python 利用asynico+aiohttp模块实现简单的异步爬虫

其他 2019-01-30 00:00:51 阅读次数: 0

看了很多大佬的博客关于这点自己懂得太少，aiohttp这个库的应用不是很熟练，比照别人的代码自己也先实践以后，后续需要看官方文档来补充这点知识。

中文文档
https://segmentfault.com/p/1210000013564725

自己比照别人代码写一个关于用aiohttp来实现的爬虫代码。

目标网站：
	http://www.ivsky.com/tupian/ziranfengguang/
	简单爬取天堂图片网的照片
逻辑就不讲了，直接上个代码

import time
import aiohttp
import asyncio
from scrapy import Selector

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'
}


# 获取网页（文本信息）
async def fetch(session, url):
    async with session.get(url, headers=headers) as response:
        return await response.text(encoding='utf-8')

# 获取每一页的所有图片路径
async def url_parse(html):
    selector = Selector(text=html)
    url_list = selector.xpath('//ul[@class="ali"]//li//img/@src').extract()
    return url_list

# 进行图片的下载
async def down_img(session, url_list):
    for each_url in img_list:
        print('程序正在采集%s' % each_url)
        async with session.get(each_url, headers=headers) as response:
            img_response = await response.read()
            with open('./image/%s.jpg' % time.time(), 'wb') as file:
                file.write(img_response)


# 开始执行抓取
async def start(url):
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, url)  # 得到每一页的html
        url_list = await url_parse(html)  # 解析得到每一页的图片url
        await down_img(session, url_list) # 进行图片的下载


if __name__ == '__main__':
    each_url = "http://www.ivsky.com/tupian/ziranfengguang/index_{page}.html"
    full_urllist = [each_url.format(page=i) for i in range(1, 20)]
    event_loop = asyncio.get_event_loop()
    tasks = [start(url) for url in full_urllist]
    tasks = asyncio.wait(tasks)
    event_loop.run_until_complete(tasks)  # 等待任务结束

后续需要掌握这块aiohttp库的知识，今天只是分享了一下代码。

猜你喜欢

转载自blog.csdn.net/weixin_42812527/article/details/83794787

python 利用asynico+aiohttp模块实现简单的异步爬虫

06.python aiohttp实现异步爬虫

利用aiohttp实现异步爬虫

基于 asyncio 和 aiohttp 的异步爬虫框架（Python）！

【老男孩】Python爬虫P45-P48aiohttp实现多任务异步协程多任务异步协程实战演练异步爬虫实战案例

利用python爬虫实现简单翻译软件

python aiohttp模块

Python aiohttp简单入门

利用aiohttp制作异步爬虫

利用aiohttp制作异步爬虫！

python链家网异步IO爬虫asyncio+aiohttp+aiomysql异步存入数据库

利用python实现爬虫

Python爬虫学习笔记 asyncio+aiohttp 异步爬虫原理和解析

python爬虫 aiohttp安装教程

Python使用async/await/aiohttp实现简单请求并发

python 异步IO-aiohttp与简单的异步HTTP客户端/服务器

Python开发【模块】：aiohttp（二）

Python异步编程——aiohttp 发起异步请求

python链家网异步IO爬虫，使用asyncio、aiohttp和aiomysql

小白学 Python 爬虫（32）：异步请求库 AIOHTTP 基础入门

利用Python实现简单的网站模拟登录！爬虫必会技能！

Python实现简单的爬虫

python 实现简单爬虫

python实现简单爬虫

Python 实现简单的爬虫

Python 异步 asyncio aiohttp和uvloop加速

Python-asyncio+aiohttp 异步库的学习

Python 的异步 IO：Aiohttp Client 代码分析

python aiohttp 异步携程请求

〖Python网络爬虫实战㉝〗- aiohttp 的基本使用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)