python中多进程+协程的使用

首先强调背景：        
1、GIL是什么？
    GIL的全称是Global Interpreter Lock(全局解释器锁)，为了数据安全所做的决定。

    GIL全局解释器锁： 
    同一进程下的多线程共享数据，共享意味着竞争，竞争带来无序，为了数据安全所以需要加锁进行数据保护，GIL本质是一把  互斥锁，使并发变为串行，保证同一时间只有一条线程访问解释器级别的数据，这样就保证了解释器级别的数据安全，同时也带来了一些问题，同一进程只有一条线程执行任务，无法利用多核优势，解决方案可以根据任务的类型来处理，如果是I/O密集型，则需要开多线程提高效率，如果是计算密集型则需要多进程。       
2、每个CPU在同一时间只能执行一个线程（在单核CPU下的多线程其实都只是并发，不是并行，并发和并行从宏观上来讲

    都是同时处理多路请求的概念。但并发和并行又有区别，并行是指两个或者多个事件在同一时刻发生；而并发是指两个或多

    事件在同一时间间隔内发生。)



   在Python多线程下，每个线程的执行方式：
1、获取GIL
2、执行代码直到sleep或者是python虚拟机将其挂起。
3、释放GIL        
     可见，某个线程想要执行，必须先拿到GIL，我们可以把GIL看作是“通行证”，并且在一个python进程中，

     GIL只有一个。拿不到通行证的线程，就不允许进入CPU执行。        

在Python2.x里，GIL的释放逻辑是当前线程遇见IO操作或者ticks计数达到100（ticks可以看作是Python自身的一个计数器，专门做用于GIL，每次释放后归零，这个计数可以通过 sys.setcheckinterval 来调整），进行释放。        

而每次释放GIL锁，线程进行锁竞争、切换线程，会消耗资源。并且由于GIL锁存在，python里一个进程永远只能同时执行一个线程(拿到GIL的线程才能执行)，这就是为什么在多核CPU上，python的多线程效率并不高。

什么是协程：

是一种用户的轻量级的线程。协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器和栈存放在制定地方，在切换回来的时候，恢复先前的上下文和栈，

作用：协程能保留上次调用的状态，每次过程重入时，就相当于进入上次调用的状态(上次离开时所处的逻辑流位置)

在并发编程中，协程和线程类似，每个协程表示一个执行单元，拥有自己的本地数据，与其他协程共同享用全局数据的其他资源。

为什么使用协程：

与协程相关的是协作多任务，不管是进程还是线程，每次阻塞、切换都要调用操作系统，先让CPU 跑操作系统的执行程序，然后再让调度程序决定先执行哪个线程或者进程
由于抢占式调度顺序的不确定的特点，使用线程要非常注意处理同步问题这块，但是协程完全不用考虑这个问题
因为协程是用户自己编写调度逻辑的，对cpu来说，协程就是单线程，cpu就不用考虑上下文调度和切换的问题，就省去了cpu调度的开销，所有协程在一定程度上要优于线程



怎么使用协程：      简单来说，使用gevent

可以不受线程开销的限制，把20w左右的url放到单进程的协程都没问题
最佳推荐的方式：多进程+协程（每个进程都看作是单线程，把这个单线程协程化）

隐藏的问题：

进程的数量会随着url数量的增加而不断增加，我们在这里不使用进程池multiprocessing.Pool来控制进程数量的原因是multiprocessing.Pool和gevent有冲突不能同时使用，有兴趣的同学可以研究一下为什么会冲突。并且在已经知道url有多少条的情况下，我们完全可以通过控制每个进程处理的url数量来控制进程数

总结：

多进程+协程：避免了cpu调度调度的开销，又把cpu充分的利用起来，对于爬取大量的数据信息和文件读写的效率都有很大的提高。

python中多进程+协程的使用

猜你喜欢