【操作系统】2.7进程管理（管程、死锁）

管程、死锁

管程

信号量机制存在的问题：编写程序困难、易出错
能不能设计一种机制，让程序员写程序时不必关注复杂的PV操作

管程的定义

管程时一种特殊的软件模块，由这些部分组成：
1. 局部于管程的共享数据结构说明
2. 对该数据结构进行操作的一组过程（函数）
3. 对局部于管程的共享数据设置初值的语句
4. 管程有一个名字

管程的基本特征

⭐管程的基本特性：
1. 局部于管程的数据只有能被局部于管程的过程所访问
2. 一个进程只有通过调用管程内的过程才能进入管程访问共享数据（前两条：要想修改共享数据结构只能调用管程中所定义的这些函数来间接修改
3. 每次仅允许一个进程在管程内执行某个内部过程
例：若把生产者消费者问题中的缓冲区定义为管程中的共享数据，上面两条就保证了只能同时由一个进程访问共享数据

拓展：用管程实现生产者消费者问题

由编译器负责实现各进程互斥地进入管程中的过程：如果一个进程在调用insert函数，则此时其他想调用过程的进程会排队
管程中设置条件变量和等待/唤醒操作，以解决同步问题

//管程的定义
monitor produceComsumer
	condition full,empty;	//条件变量用来实现同步
	int count=0;			//缓冲区中的产品数
	
	void insert(Item item){
    
    	//定义过程：把产品Item放入缓冲区
		if(count == N)		//判断缓冲区是否已满
			wait(full);		//若满了则挂在full信号量的阻塞队列
			
		count++;			//产品数+1
		insert_item(item);	//放入产品
		
		if(count == 1)		//判断该进程放入产品之前，缓冲区是否为空，若为空则表示有可能有消费者正在empty队列阻塞等待
			signal(empty);	//唤醒一个挂在empty信号量阻塞队列队头的进程
	}
	
	Item remove(){
    
    			//定义过程：从缓冲区取走一个产品
		if(count == 0)		//判断缓冲区是否为空
			wait(empty);    //若为空则挂在empty信号量的阻塞队列
			
		count--;
		
		if(count == N-1)	//判断该进程放入产品之前，缓冲区是否为满，若为满则表示有可能有生产者正在full队列阻塞等待
			signal(full);
		return remove_item();
	}
end monitor;

//生产者进程
producer{
    
    
	while(1){
    
    
		item = 生产一个产品;
		 produceComsumer.insert(item);
	}
}
//消费者进程
producer{
    
    
	while(1){
    
    
		 produceComsumer.remove(item);
		 消费产品item;
	}
}

⭐小结：
1. 引入管程的目的无非就是更方便地实现进程互斥和同步
2. 需要在管程中定义共享数据（如生产者消费者问题中的缓冲区）
3. 需要在管程中定义用于访问共享数据的 “入口” ——其实就是一些函数（如生产者消费者问题中，可以定义一个insert函数用于将产品放入缓冲区）
4. 只有通过这些特定的“入口”才能访问共享数据
5. 管程中有很多“入口”，但是每次只能开放其中一个“入口”，并且只能让一个进程或者线程进入（管程的这些特性会保证一个时间段内最多只有一个进程在访问缓冲区，注意：互斥特性有编译器负责实现，程序员不用关心）
6. 可以在管程中设置条件变量和等待/唤醒操作以解决同步问题，可以让一个进程或线程在条件变量上等待（此时进程应该先释放管程的使用权，也就时让出“入口”），也可以通过唤醒操作将在等待队列上的进程或线程唤醒

死锁

什么是死锁

哲学家问题中，每个哲学家都在等待自己右边的人放下筷子，这些哲学家进程都因等待筷子资源而被阻塞，即发生了死锁

在并发环境下，各进程因竞争资源而造成的一种互相等待对方手里的资源，导致各进程都阻塞，都无法向前推进的现象，就是“死锁”。
每个人都占有一个资源，同时又在等待对方手里的资源
发生死锁后若无外力干涉，这些进程都将无法向前推进

进程死锁、饥饿、死循环的区别

死锁：在并发环境下，各进程因竞争资源而造成的一种互相等待对方手里的资源，导致各进程都阻塞，都无法向前推进的现象
饥饿：由于长期得不到想要的资源，某进程无法向前推进的现象。比如：短进程优先算法中，若有源源不断的短进程到来，则长进程一直得不到处理机，从而发生长进程饥饿的现象

死循环：某进程执行过程中一直跳不出某个循环的现象。有时是因为程序逻辑bug导致的，有时是程序员故意设计的
⭐

现象	共同点	区别
死锁	都是进程无法顺利向前推进的现象	死锁一定是“循环等待对方手里的资源”导致的，因此如果有死锁现象，那⭐至少有两个或者两个以上的进程同时发生死锁
饥饿		⭐可能只有一个进程发生饥饿。发生饥饿的进程既可能是阻塞态（如长期得不到需要的I/O设备），也可能是就绪态（长期得不到处理机）
死循环		可能只有一个进程发生死循环。死循环的进程可以上处理机运行（可以是运行态），只不过无法像期待的那样顺利推进
死锁和饥饿问题是由于操作系统分配资源的策略不合理导致的，而死循环是由代码逻辑的错误导致的。死锁和饥饿时管理者（操作系统）的问题，死循环时被管理者的问题。

死锁产生的必要条件

产生死锁必须 同时满足 以下四个条件，只要有一个条件不成立，死锁就不会发生

互斥条件： 只有对必须互斥使用的资源的争抢才会导致死锁（如哲学家的筷子、打印机设备）。像内存、扬声器这样的可以同时让多个进程同时使用的资源是不会导致死锁的（因为进程不用阻塞等待这种资源）
不剥夺条件： 进程所获得的资源在未使用完之前，不能由其他进程强行夺走，只能是主动释放资源
请求和保持条件： 进程已经至少保持了一个资源，但又提出了一个新的资源请求，而该资源又被其他进程占有，此时请求进程被阻塞，但又对自己持有的资源保持不放
循环等待条件： 存在一种进程资源的循环等待链，链中的每一个进程以获得的资源同时被下一个进程所请求等待

注意：
1. ⭐发生死锁时一定有循环等待链，但是发生循环等待是未必死锁（循环等待是死锁的必要不充分条）
2. 如果同类资源数大于1，即使有循环等待，也未必发生死锁（如果每个哲学家都拿着右筷子，都在等左筷子，但是2号哲学家的左筷子有两只，一只被1号哲学家拿着，另一个被神秘的哲学家拿着，故即使1号哲学家不放筷子，但只要神秘的哲学家放下这个筷子，进程就可以继续向前推进）。但如果系统中每类资源数量只有1个，那循环等待就是死锁的充分必要条件了

什么时候会发生死锁

对不可剥夺的资源的分配不合理时，就可能造成死锁。

对系统资源的竞争。各进程对不可剥夺的资源（如：打印机）的竞争可能引起死锁，对可剥夺的资源（ CPU)的竞争是不会引起死锁的
进程推进的顺序非法。请求和释放资源的顺序不当，同样也会引起死锁。例如：并发执行的进程P1、P2分别申请并占有资源R1、R2，之后进程P1又紧接着申请R2，而进程P2又紧接着申请R1，两者会因为申请的资源被对方所占有而阻塞，从而发生死锁
信号量的使用不当也会造成死锁。如生产者消费者问题中，如果实现互斥的P操作和实现同步的P操作之前，就有可能导致死锁。（可以把互斥、同步信号量抽象为一种系统资源）

死锁的处理策略

不允许死锁的发生：
1. 预防死锁（静态策略）：破坏死锁产生的四个必要条件中的一个或几个
  1. 破坏互斥条件：
    1. 互斥条件：只有对必须互斥使用的资源的争抢才会导致死锁
    2. 如果把只能互斥使用的资源改造为允许共享使用，则系统不会进入死锁状态。比如SPOOLing技术：可以将独占设备在逻辑上改造为共享设备，如将打印机改造为共享设备
    3. 缺点：并不是所有的资源都可以改造成可共享的资源。并且为了系统安全，很多地方还必须保护这种互斥性，因此，很多时候都无法破坏互斥性
  2. 破坏不剥夺条件：
    1. 不剥夺条件：进程所获得的资源在未使用完之前，不能由其他进程强行夺走，只能是主动释放资源
    2. 破坏不剥夺条件：
      1. 方案一：（自己受阻时主动放弃资源）当某个进程请求新的资源得不到满足时，他必须立即释放已经保持的所有资源，待以后需要时在重新申请。也就是说，即使某些资源尚未使用完，也需要主动释放，从而破坏了破坏不可剥夺条件
      2. 方案二：（靠操作系统协助抢别人的）当某个进程需要的资源被其他进程所占用的时候，可以由操作系统协助，将想要的资源剥夺。这种方式需要考虑各进程的优先级（比如：剥夺方式的处理机调度）
    3. 缺点：
      1. 实现起来比较复杂
      2. 释放已经获得的资源，可能造成前一阶段的工作失效。因此这种方法一般只适用于易保存和恢复状态的资源，如CPU。
      3. 反复地申请和释放资源会增加系统开销，降低系统吞吐量
      4. 若采用方案一，意味着只要暂时得不到某种资源，之前获得的那些资源就都需要放弃，以后再重新申请。如果这种情况一直发生这样的情况，就会导致进程饥饿
  3. 破坏请求和保持条件：
    1. 请求和保持条件：进程已经至少保持了一个资源，但又提出了一个新的资源请求，而该资源又被其他进程占有，此时请求进程被阻塞，但又对自己持有的资源保持不放
    2. 可以采用静态分配方法，即进程在运行前一次性申请完它所需要的全部资源，在它的资源未满足之前，不让它投入运行。且一旦投入运行后这些资源就一直归他所有，该进程就不会再请求别的任何资源
    3. 缺点：
      1. 有的资源只被需要很短的时间，因为所有资源在开始就被分配给进程，且在该进程运行期间一直被该进程所占有，就会造成资源的浪费，资源利用率极低。
      2. 另外，也可能造成进程的饥饿现象（如：A类进程需要资源1，B类进程需要资源2，而C类进程则需要资源1和资源2，如果系统中由源源不断的A、B类进程到达，则C类进程则一直长期得不到所有资源，造成C类进程的饥饿）
  4. 破坏循环等待条件：
    1. 循环等待条件：存在一种进程资源的循环等待链，链中的每一个进程以获得的资源同时被下一个进程所请求等待
    2. 可采用顺序资源分配法。首先给系统中所有资源编号，规定每个进程必须按照编号递增的顺序请求资源，同类资源（即编号相同的资源）一次性申请完（原理分析：一个进程只有占有小编号的资源时，才有资格申请更大编号的资源。按此规则，已经持有大编号资源的进程就无法申请小编号的资源，也就不会出现资源申请循环等待链）
    3. 缺点：
      1. 不方便增加新的设备，需要重新编号
      2. 进程实际使用资源的顺序可能和编号递增顺序不一致，会导致资源浪费（实际使用中先用7号资源，再用5号资源，但按规则它需要先占有5号资源，再占有7号资源。导致5号资源有一段时间被浪费）
      3. 必须按照编号递增顺序来申请资源，造成编程困难
2. 避免死锁：用某种方法防止系统进入不安全的状态，从而避免死锁（银行家算法）
  1. 安全序列：就是指如果系统按照这种序列分配资源，则每个进程都可以顺利完成。只要能找到一个安全序列，系统就是安全状态，当然安全序列可能有多个。
  2. 如果分配资源后，系统找不到任何一个安全序列，系统就进入不安全状态。这就意味着之后可能所有进程都无法顺利进行下去。当然，如果有的进程提前归还了资源，系统还是可能重新回到安全状态的，不过再分配资源之前总是要考虑最坏的情况
  3. ⭐如果系统处于安全状态，就一定不会发生死锁。如果系统进入不安全状态，则可能发生死锁（处于不安全状态下，未必发生死锁——只有在资源不能满足进程新的资源请求时才会死锁，只要进程还没有请求就没有发生死锁；但如果发生死锁，一定处于不安全状态下）
  4. 因此，可以在资源分配之前就预先判断这次分配是否会使系统进入不安全状态，以此决定是否答应资源分配请求，也是“银行家算法”的核心思想
  5. ⭐银行家算法：
    1. 核心思想：在进程提出资源请求时，先判断此次分配是否会导致系统进入不安全状态。如果会进入不安全状态，就暂时不答应此次请求，让改进程先阻塞等待
      
      思考：计算机中有多类资源如何表示多种资源的情况？
      可以把单维的数字的拓展为多维的向量。
    2. 比如：系统中有5个进程P0~P4，3种资源R0 ~R2，初始数量为（10，5，7），则某一时刻的情况可表示如下：
      1. 资源总数为（10，5，7），则算出剩余可用资源为（3，3，2）
        依次检查剩余可用资源（3，3，2）能否满足各个进程的需求
      2. 可以看出P1可以满足，说明可以把资源优先分配给P1，那P1一定可以顺利执行结束的，等P1结束就会归还资源，于是资源数就可以增加到（2，0，0）+（3，3，2）=（5，3，2）
      3. 可以看出（5，3，2）能够满足P3，说明可以把资源优先分配给P3，那P3一定可以顺利执行结束的，等P3结束就会归还资源，于是资源数就可以增加到（2，1，1）+（5，3，2）=（7，4，3）
      4. …
      5. 依次类推，共五次循环检查将五个进程依次加入安全序列中，该算法称为“安全性算法”，得到安全序列：P1、P3、P0、P2、P4，说明此时处于安全状态，不可能发生死锁
      注：⭐实际手算中更快的方法：第一轮发现（3，3，2）可以满足P1、P3，则可将P1、P3直接加入安全序列，若P1、P3的资源返回后得到可用资源为（2，0，0）+（2，1，1）+（3，3，2）=（7，4，3），第二轮发现（3，3，2）可以满足剩余的P0、P2、P4，则可将P0、P2、P4直接加入安全序列，若P0、P2、P4的资源返回后得到可用资源为（0，1，0）+（3，0，2）+（0，0，2）+（7，4，3）=（10，5，7），得到安全序列：P1、P3、P0、P2、P4
    3. 代码实现银行家算法：
      可用银行家算法预测本次分配是否会导致系统进入不安全状态，步骤如下：
      1. request i 表示进程 Pi 的一次资源请求，首先判断这次请求是否合理，即是否小于该进程当前最多需要的资源数：request i [ j ] ≤ need [ i , j ]（0≤j≤m），这里 j 控制比较各类资源的数量
      2. 如果该次资源请求合理，则接下来判断系统剩余资源available是否能满足此次请求：request i [ j ] ≤ available [ j ]（0≤j≤m）
      3. 系统试着将资源分配给进程Pi，并修改相应的数据（并非真的分配，修改数值只是为了做预判）
        ① available = available - request i
        ② allocation [ i , j ] = allocation[ i , j ] + request i [ j ]
        ③ need [ i , j ] = need [ i , j ] - request i [ j ]
      4. 操作系统执行安全性算法：判断此次资源分配之后，系统是否处于安全状态，若安全，才正式分配，把该进程加入安全序列里，并把该进程的资源全部收回；否则，恢复相应数据，让进程阻塞等待
        不断重复上述过程，看最终是否能让所有进程加入安全序列
允许死锁的发生：
1. 死锁的检测和解除：允许死锁的发生，但操作系统会负责检测出死锁的发生，然后采取某种措施解除死锁
  1. 死锁的检测：
    
    为了能对系统是否发生死锁进行检查，必须：
    ①用某种数据结构来保存资源的请求和分配信息
    ②提供一种算法，利用上述信息来检测系统是否进入死锁状态
    1. 数据结构——资源分配图：
      两种结点：
      1. 进程结点（圆形）：对应一个进程
      2. 资源结点（矩形）：对应一类资源，一类资源可能有多个（矩形中的小圆数量）
      
      两种边：
      1. 进程结点→资源结点：表示进程想申请几个资源（每条边代表一个）
      2. 资源结点→进程结点：表示已经为进程分配了几个资源（每条边代表一个）
    2. 规则：
      1. 如果系统中剩余的可用资源数足够满足进程的需要，那么这个进程暂时不会阻塞，可用顺利执行下去
      2. 如果这个进程执行结束了把资源归还系统，就可能使某些正在等待这些资源的进程被激活，并顺利执行下去
      3. 相应的，这些被激活的进程执行完又会释放资源，这样又会激活其他的阻塞进程
    3. 分析：
      1. 如果按上边的规则分析下去，最终能消除所有的边，就称这个图是可以完全简化的，此时一定没有发生死锁（相当于找到了一个安全序列）
        
        上图中，P1没有阻塞可以顺利执行，执行完后归还资源，激活P2，P2又可以继续顺利执行，这样就可以消除图中的所有边，即没有发生死锁
      2. 如果最终不能消除所有边，那么此时发生了死锁
        
        上图中，只有P3为阻塞，能够顺利执行下去，执行结束后释放一个R2资源，但P1进程要请求两个R2资源，故P1、P2仍然阻塞，不能消除所有边，即发生了死锁
    4. 死锁检测算法：依次消除不阻塞进程相连的边，直到无边可消
      1. 在资源分配图中，找到既不阻塞又不孤立的进程Pi（如上两图中分别为P1和P3），进程Pi释放所有资源，消除它所有的申请边和分配边，使之成为孤立结点
      2. 进程Pi释放的资源，可以唤醒因申请这些资源而阻塞的进程，使之可以顺利进行
      3. 直到最后，判断是否可以消除所有边
    5. 死锁定理：如果某时刻系统的资源分配图是不可完全化简的，那么此时系统死锁
  2. 死锁的解除：
    1. 资源剥夺法：挂起某些死锁进程（暂时放到外存上），并抢占它的资源，将这些资源分配给其它的死锁进程。缺点：应该防止被挂起的进程长期得不到资源而饥饿
    2. 撤销进程法：强制撤销部分甚至全部死锁进程，并抢占它的资源。实现简单，但是付出的代价可能会很大，有的进程已经运行了很长一段时间，若快完成时被撤销，功亏一篑，代价很大
    3. 进程回退法：让一个或多个死锁进程回退到足以避免死锁的地步。这就要求系统记录进程的历史信息，设置还原点
    决定对谁动手：
    1. 进程优先级（低的）
    2. 已经执行多长时间（已经执行时间短的）
    3. 还要执行多久才能完成（需要执行时间长的）
    4. 进程已经使用了多少资源（使用少的）
    5. 进程是交互式的还是批处理式的（批处理，若选交互式的用户体验会不好）