Java虚拟机垃圾回收(二) 垃圾回收算法：标记-清除算法复制算法标记-整理算法分代收集算法火车算法

Java虚拟机垃圾回收(二) 垃圾回收算法

标记-清除算法复制算法标记-整理算法分代收集算法火车算法

在《Java虚拟机垃圾回收(一) 基础》中了解到如何判断对象是存活还是已经死亡？介绍了垃圾回收基础算法：引用计数算法、可达性分析算法，以及HotSpot虚拟机中实现对象可达性分析的一些问题。

下面先来了解Java虚拟机垃圾回收的几种常见算法：标记-清除算法、复制算法、标记-整理算法、分代收集算法、火车算法，介绍它们的算法思路，有什么优点和缺点，以及主要应用场景。

1、标记-清除算法

       标记-清除（Mark-Sweep）算法是一种基础的收集算法。

1、算法思路

       "标记-清除"算法，分为两个阶段：

（A）、标记

      首先标记出所有需要回收的对象；

       标记过程如《Java虚拟机垃圾回收(一) 基础》"2-4、判断对象生存还是死亡"中所述--分为两个标记过程（详细请参考前文）：

（1）、第一次标记

       在可达性分析后发现对象到GC Roots没有任何引用链相连时，被第一次标记；

       并且进行一次筛选：此对象是否必要执行finalize()方法；

       对有必要执行finalize()方法的对象，被放入F-Queue队列中；

（2）、第二次标记

       GC将对F-Queue队列中的对象进行第二次小规模标记；

       在其finalize()方法中重新与引用链上任何一个对象建立关联，第二次标记时会将其移出"即将回收"的集合；

       对第一次被标记，且第二次还被标记（如果需要，但没有移出"即将回收"的集合），就可以认为对象已死，可以进行回收。

（B）、清除

      两次标记后，还在"即将回收"集合的对象将被统一回收；

       执行过程如下图：

2、优点

       基于最基础的可达性分析算法，它是最基础的收集算法；

       而后续的收集算法都是基于这种思路并对其不足进行改进得到的；

3、缺点

       主要有两个缺点：

（A）、效率问题

       标记和清除两个过程的效率都不高；

（B）、空间问题

       标记清除后会产生大量不连续的内存碎片；

       这会导致分配大内存对象时，无法找到足够的连续内存；

       从而需要提前触发另一次垃圾收集动作；

4、应用场景

      针对老年代的CMS收集器；

2、复制算法算法

       "复制"（Copying）收集算法，为了解决标记-清除算法的效率问题；

1、算法思路

       （A）、把内存划分为大小相等的两块，每次只使用其中一块；

       （B）、当一块内存用完了，就将还存活的对象复制到另一块上（而后使用这一块）；

       （C）、再把已使用过的那块内存空间一次清理掉，而后重复步骤2；

      执行过程如下图：

2、优点

       这使得每次都是只对整个半区进行内存回收；

       内存分配时也不用考虑内存碎片等问题（可使用"指针碰撞"的方式分配内存）；

      实现简单，运行高效；

       （关于"指针碰撞"请参考《Java对象在HotSpot虚拟机中的创建过程》）

3、缺点

（A）、空间浪费

可用内存缩减为原来的一半，太过浪费（解决：可以改良，不按1:1比例划分）；

（B）、效率随对象存活率升高而变低

当对象存活率较高时，需要进行较多复制操作，效率将会变低（解决：后面的标记-整理算法）；

4、应用场景

      现在商业JVM都采用这种算法（通过改良缺点1）来回收新生代；

      如Serial收集器、ParNew收集器、Parallel Scavenge收集器、、G1（从局部看）；

5、HotSpot虚拟机的改良算法

（A）、弱代理论

       分代垃圾收集基于弱代理论（weak generational hypothesis），具体描述如下：

       （1）、大多数分配了内存的对象并不会存活太长时间，在处于年轻代时就会死掉；

       （2）、很少有对象会从老年代变成年轻代；

       其中IBM研究表明：新生代中98%的对象都是"朝生夕死"；

       所以并不需要按1:1比例来划分内存（解决了缺点1）；

（B）、HotSpot虚拟机新生代内存布局及算法

                      （1）、将新生代内存分为一块较大的Eden空间和两块较小的Survivor空间；

                      （2）、每次使用Eden和其中一块Survivor；

                      （3）、当回收时，将Eden和使用中的Survivor中还存活的对象一次性复制到另外一块Survivor；

                      （4）、而后清理掉Eden和使用过的Survivor空间；

                      （5）、后面就使用Eden和复制到的那一块Survivor空间，重复步骤3；

         默认Eden：Survivor=8:1，即每次可以使用90%的空间，只有一块Survivor的空间被浪费；

（C）、分配担保

       如果另一块Survivor空间没有足够空间存放上一次新生代收集下来的存活对象时，这些对象将直接通过分配担保机制（Handle Promotion）进入老年代；

       分配担保在以后讲解垃圾收集器执行规则时再详解；

       更多请参考：http://docs.oracle.com/javase/8/docs/technotes/guides/vm/gctuning/generations.html#sthref16

3、标记-整理算法

       "标记-整理"（Mark-Compact）算法是根据老年代的特点提出的。

1、算法思路

（1）、标记

      标记过程与"标记-清除"算法一样；

（2）、整理

       但后续不是直接对可回收对象进行清理，而是让所有存活的对象都向一端移动；

       然后直接清理掉端边界以外的内存；

执行过程如下图：

2、优点

（A）、不会像复制算法，效率随对象存活率升高而变低

       老年代特点：

       对象存活率高，没有额外的空间可以分配担保；

       所以老年代一般不能直接选用复制算法算法；

       而选用标记-整理算法；

（B）、不会像标记-清除算法，产生内存碎片

       因为清除前，进行了整理，存活对象都集中到空间一侧；

3、缺点

       主要是效率问题：除像标记-清除算法的标记过程外，还多了需要整理的过程，效率更低；

4、应用场景

       很多垃圾收集器采用这种算法来回收老年代；

      如Serial Old收集器、G1（从整体看）；

4、分代收集算法

       "分代收集"（Generational Collection）算法结合不同的收集算法处理不同区域。

1、算法思路

       基于前面说的弱代理论，其实并没有什么新的思想；

       只是根据对象存活周期的不同将内存划分为几块；

       这样就可以根据各个年代的特点采用最适当的收集算法；

       一般把Java堆分为新生代和老年代；

（A）、新生代

       每次垃圾收集都有大批对象死去，只有少量存活；

       所以可采用复制算法；

（B）、老年代

       对象存活率高，没有额外的空间可以分配担保；

      使用"标记-清理"或"标记-整理"算法；

      结合上面对新生代的内存划分介绍和上篇文章对Java堆的介绍，可以得出HotSpot虚拟机一般的年代内存划分，如下图：

2、优点
       可以根据各个年代的特点采用最适当的收集算法；

3、缺点
       仍然不能控制每次垃圾收集的时间；
4、应用场景

      目前几乎所有商业虚拟机的垃圾收集器都采用分代收集算法；

      如HotSpot虚拟机中全部垃圾收集器：Serial、ParNew、Parallel Scavenge、Serial Old、Parallel Old、CMS、G1（也保留）；

5、火车算法

      火车算法也称列车算法，是一种更彻底的分区域处理收集算法，是对分代收集算法的一个有力补充。

1、算法思路

      在火车算法中，内存被分为块，多个块组成一个集合。为了形象化，一节车厢代表一个块，一列火车代表一个集合，如下图；

      火车与车箱都按创建顺序标号，每个车厢大小相等，但每个火车包含的车厢数不一定相等；

      每节车箱有一个被记忆集合，而每辆火车的记忆集合是它所有车厢记忆集合的总和；

      记忆集合由指向车箱中对象的引用组成，这些引用来自同一辆火车中序号较高的车箱中的对象，以及序号较高中的对象；

      垃圾收集以车厢为单位，整体算法流程如下：

（1）、选择标号最小的火车；

（2）、如果火车的记忆集合是空的, 释放整列火车并终止, 否则进行第三步操作；

（3）、选择火车中标号最小的车厢；

（4）、对于车厢记忆集合的每个元素：

      如果它是一个被根引用引用的对象, 那么, 将拷贝到一列新的火车中去；

      如果是一个被其它火车的对象指向的对象, 那么, 将它拷贝到这个指向它的火车中去.；

      假设有一些对象已经被保留下来了, 那么通过这些对象可以触及到的对象将会被拷贝到同一列火车中去；

      如果一个对象被来自多个火车的对象引用, 那么它可以被拷贝到任意一个火车去；

      这个步骤中, 有必要对受影响的引用集合进行相应地更新；

（5）、释放车厢并且终止；

      收集过程会删除一些空车箱和空车，当需要的时候也会创建一些车箱和火车，更多信息请参考：《编译原理》第二版7.75"列车算法"、《渐进式地垃圾回收: 火车算法》；

执行过程如下图：

2、优点

      可以在成熟对象空间提供限定时间的渐近收集；

      而不需要每次都进行一个大区域的垃圾回收过程；

      即可以控制垃圾回收的时间，在指定时间内进行一些小区域的回收；

3、缺点

      实现较为复杂，如采用类似的算法的G1收集器在JDK7才实现；

      一些场景下可能性价比不高；

4、应用场景

      JDK7后HotSpot虚拟机G1收集器采用类似的算法，能建立可预测的停顿时间模型；

      到这里，我们大体了解Java虚拟机垃圾回收的几种常见算法，后面我们将分别去了解JVM垃圾收集器、以及相关调优方法……

【参考资料】

1、《编译原理》第二版第7章

2、《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版第3章

3、《The Java Virtual Machine Specification》Java SE 8 Edition：https://docs.oracle.com/javase/specs/jvms/se8/html/index.html

4、《Java Platform, Standard Edition HotSpot Virtual Machine Garbage Collection Tuning Guide》：http://docs.oracle.com/javase/8/docs/technotes/guides/vm/gctuning/index.html

5、《Memory Management in the Java HotSpot™ Virtual Machine》：http://www.oracle.com/technetwork/java/javase/tech/memorymanagement-whitepaper-1-150020.pdf

6、HotSpot虚拟机参数官方说明：http://docs.oracle.com/javase/8/docs/technotes/tools/unix/java.html

7、《Thinking in Java》第四版 5.5 清理：终结处理和垃圾回收；

8、渐进式地垃圾回收: 火车算法：http://nileader.blog.51cto.com/1381108/402609

Java虚拟机垃圾回收(二) 垃圾回收算法：标记-清除算法 复制算法 标记-整理算法 分代收集算法 火车算法