20 | 揭秘 Python 协程

1. 一个爬虫的例子

import time

def crawl_page(url):
    print('crawling {}'.format(url))
    sleep_time = int(url.split('_')[-1])
    time.sleep(sleep_time)
    print('OK {}'.format(url))

def main(urls):
    for url in urls:
        crawl_page(url)

%time main(['url_1', 'url_2', 'url_3', 'url_4'])

########## 输出 ##########

crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4
Wall time: 10 s

scrawl_page 为函数休眠数秒，休眠时间取决于url最后的那个数字。

main()函数执行，调取craw_page()函数进行网络通信，经过若干秒等待后收到结果，然后执行下一个。

它也占用了不少时间，五个页面分别用了1秒到4秒的时间，加起来一共用了10秒，这样效率低，所以要优化，一个简单的思路就是并发化，用协程来写。

import asyncio

async def crawl_page(url):
    print('crawling {}'.format(url))
    sleep_time = int(url.split('_')[-1])
    await asyncio.sleep(sleep_time)
    print('OK {}'.format(url))

async def main(urls):
    for url in urls:
        await crawl_page(url)

%time asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4
Wall time: 10 s

import asyncio这个库包含了大部分我们实现协程所需的魔法工具

async修饰词声明异步函数，于是这里的craw_page和main都变成了异步函数，而调用异步函数，我们便可得到一个协程对象(coroutine object).

执行协程有多个方法，常用的三种：

await执行的效果，和python正常执行一样的，也就是说程序会阻塞在这，进入被调用的协程函数，执行完毕后再继续，而这也是await的字面意思，代码中await asynio.sleep(sleep_time)会在这里休息若干秒，await crawl_page(url）则会执行craw_page()函数。

asyncio.create_task()来创建任务，最后用asynicio.run来运行。

import asyncio

async def crawl_page(url):
    print('crawling {}'.format(url))
    sleep_time = int(url.split('_')[-1])
    await asyncio.sleep(sleep_time)
    print('OK {}'.format(url))

async def main(urls):
    tasks = [asyncio.create_task(crawl_page(url)) for url in urls]
    for task in tasks:
        await task

%time asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
crawling url_2
crawling url_3
crawling url_4
OK url_1
OK url_2
OK url_3
OK url_4
Wall time: 3.99 s

20 | 揭秘 Python 协程

猜你喜欢