11 单线程+多任务异步协程爬虫 - 代码天地

11 单线程+多任务异步协程爬虫

其他 2019-06-26 21:14:54 阅读次数: 0

#

from lxml import etree
import asyncio
import aiohttp
import time
def callback(task):  # 回调函数
    page = task.result()
    tree = etree.HTML(page)
    name = tree.xpath('/html/body/div[3]/div[4]/ul/li/a/span[2]/p[1]/text()')
    print(name)
    # print('I am callback', task.result())  #接收task的return

async def get_page(url):  #
    async with aiohttp.ClientSession() as session:
         async with await session.get(url=url) as response:
            page_text = await response.text()  # read() 二进制形式的响应数据,json()
            return page_text
            # print('响应数据:',page_text)
            # print('ok %s'%url)

start = time.time()
urls = [
    'http://ly6080.com.cn/vod/type/id/1.html',
    'http://ly6080.com.cn/vod/type/id/2.html',
    'http://ly6080.com.cn/vod/type/id/3.html',
]
tasks = []  #任务列表 放置多个任务对象
loop = asyncio.get_event_loop()
for url in urls:
    c = get_page(url)
    task = asyncio.ensure_future(c)
    tasks.append(task)

    task.add_done_callback(callback) # 添加要执行的回调函数
loop.run_until_complete(asyncio.wait(tasks))

print('总耗时',time.time()-start)

猜你喜欢

转载自www.cnblogs.com/zhangchen-sx/p/11093805.html

11 单线程+多任务异步协程爬虫

爬虫之单线程+多任务异步协程

python爬虫---单线程+多任务异步协程

python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用

爬虫第四章单线程+多任务异步协程

爬虫的单线程+多任务异步协程:asyncio 3.6

在爬虫中使用单线程异步协程，包含单任务和多任务，以及数据解析使用回调函数

爬虫4:单线程+多任务的异步协程(asyncio,aiohttp),selenium的基本使用,基于js加密和混淆的案列

requests模块高级.ipynb、获取cookie、代理操作、代理池、爬西刺免费代理IP、爬雪球网、模拟登陆古诗文网、验证码的识别、进程(multiprocessing)中的线程(dummy)、协程、多任务、flask_server、单线程+多任务异步协程在爬虫中的应用、

爬虫的高效率解决方式--单线程+异步协程

单线程实现了多任务异步协程

单线程多任务异步协程

单线程+多任务异步协程

Python爬虫之协程，异步协程和多任务异步协程

python爬虫--多任务异步协程, 快点,在快点......

doraemon的python 提升爬取效率（单线程+多任务异步协程）

【老男孩】Python爬虫P45-P48aiohttp实现多任务异步协程多任务异步协程实战演练异步爬虫实战案例

【python爬虫系列】11异步爬虫

单线程+异步协程

爬虫异步协程

单线程多任务协程vip电影爬取

单线程简单爬虫

python3爬虫系列14之进程、单进程、多进程、线程、单线程、多线程、并行、并发、互斥锁、协程的白话解释

Python爬虫纯干货：单线程、多线程和协程的爬虫性能对比

Python 爬虫：单线程、多线程和协程的爬虫性能对比

06爬虫-异步协程

爬虫15——协程异步

糗事爬虫-单线程+多线程

python学习——单线程+异步协程

单线程、多线程和协程的爬虫性能对比

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)