Java虚拟机之垃圾收集器

一、对象引用

JDK1.2之前，Java中的引用定义很很纯粹：如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址，就称这块内存代表着一个引用。但在JDK1.2之后，Java对引用的概念进行了扩充，将其分为强引用（Strong Reference）、软引用（Soft Reference）、弱引用（Weak Reference）、虚引用（Phantom Reference）四种，引用强度依次减弱。
（1）强引用：如“Object obj = new Object（）”，这类引用是Java程序中最普遍的。只要强引用还存在，垃圾收集器就永远不会回收掉被引用的对象。
（2）软引用：它用来描述一些可能还有用，但并非必须的对象。在系统内存不够用时，这类引用关联的对象将被垃圾收集器回收。JDK1.2之后提供了SoftReference类来实现软引用。
（3）弱引用：它也是用来描述非需对象的，但它的强度比软引用更弱些，被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集器工作时，无论当前内存是否足够，都会回收掉只被弱引用关联的对象。在JDK1.2之后，提供了WeakReference类来实现弱引用。
（4）虚引用：最弱的一种引用关系，完全不会对其生存时间构成影响，也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用关联的唯一目的是希望能在这个对象被收集器回收时收到一个系统通知。JDK1.2之后提供了PhantomReference类来实现虚引用。

二、垃圾对象的判定

Java堆中存放着几乎所有的对象实例，垃圾收集器对堆中的对象进行回收前，要先确定这些对象是否还有用，判定对象是否为垃圾对象有如下算法：
（1）引用计数算法
给对象添加一个引用计数器，每当有一个地方引用它时，计数器值就加1，当引用失效时，计数器值就减1，任何时刻计数器都为0的对象就是不可能再被使用的。
引用计数算法的实现简单，判定效率也很高，在大部分情况下它都是一个不错的选择，当Java语言并没有选择这种算法来进行垃圾回收，主要原因是它很难解决对象之间的相互循环引用问题。
（2）可达性分析算法
Java和C#中都是采用可达性分析算法来判定对象是否存活的。这种算法的基本思路是通过一系列名为“GC Roots”的对象作为起始点，从这些节点开始向下搜索，搜索所走过的路径称为引用链，当一个对象到GC Roots没有任何引用链相连时，就证明此对象是不可用的。如图所示，object5、object6和object7虽然互相有关联，但它们到GC Roots是不可达的，所以会被判定为可回收的对象。
可达性分析算法判断对象是否可回收

在Java语言里，可作为GC Roots的对象包括下面几种：
1.虚拟机栈（栈帧中的本地变量表）中引用的对象。
2.方法区中的类静态属性引用的对象。
3.方法区中的常量引用的对象。
4.本地方法栈中JNI（Native方法）的引用对象。

实际上，在可达性分析算法中，要真正宣告一个对象死亡，至少要经历两次标记过程：如果对象在进行根搜索后发现没有与GC Roots相连接的引用链，那它会被第一次标记并且进行一次筛选，筛选的条件是此对象是否有必要执行finalize（）方法。当对象没有覆盖finalize（）方法，或finalize（）方法已经被虚拟机调用过，虚拟机将这两种情况都视为没有必要执行。如果该对象被判定为有必要执行finalize（）方法，那么这个对象将会被放置在一个名为F-Queue队列中，并在稍后由一条由虚拟机自动建立的、低优先级的Finalizer线程去执行finalize（）方法。finalize（）方法是对象逃脱死亡命运的最后一次机会（因为一个对象的finalize（）方法最多只会被系统自动调用一次），稍后GC将对F-Queue中的对象进行第二次小规模的标记，如果要在finalize（）方法中成功拯救自己，只要在finalize（）方法中让该对象重引用链上的任何一个对象建立关联即可。而如果对象这时还没有关联到任何链上的引用，那它就会被回收掉。

三、垃圾收集算法

判定除了垃圾对象之后，便可以进行垃圾回收了。下面介绍一些垃圾收集算法
（1）标记清除算法
标记—清除算法是最基础的收集算法，它分为“标记”和“清除”两个阶段：首先标记出所需回收的对象，在标记完成后统一回收掉所有被标记的对象，它的标记过程其实就是前面的根搜索算法中判定垃圾对象的标记过程。标记—清除算法的执行情况如下图所示：
标记-清除算法
该算法的缺点：
1.标记和清除过程的效率都不高。
2. 标记清除后会产生大量不连续的内存碎片，空间碎片太多可能会导致，当程序在以后的运行过程中需要分配较大对象时无法找到足够的连续内存而不得不触发另一次垃圾收集动作。

（2）复制算法
复制算法是针对标记—清除算法的缺点，在其基础上进行改进而得到的，它讲课用内存按容量分为大小相等的两块，每次只使用其中的一块，当这一块的内存用完了，就将还存活着的对象复制到另外一块内存上面，然后再把已使用过的内存空间一次清理掉。
复制算法的执行情况如下图所示：

复制算法的优点：
1. 每次只对一块内存进行回收，运行高效。
2.只需移动栈顶指针，按顺序分配内存即可，实现简单。
3. 内存回收时不用考虑内存碎片的出现。
复制算法的缺点：
可一次性分配的最大内存缩小了一半。

（3）标记—整理算法
复制算法比较适合于新生代，在老年代中，对象存活率比较高，如果执行较多的复制操作，效率将会变低，所以老年代一般会选用其他算法，如标记—整理算法。该算法标记的过程与标记—清除算法中的标记过程一样，但对标记后出的垃圾对象的处理情况有所不同，它不是直接对可回收对象进行清理，而是让所有的对象都向一端移动，然后直接清理掉端边界以外的内存。
标记—整理算法的回收情况如下所示：
标记整理算法

（4）分代收集算法
当前商业虚拟机的垃圾收集都采用分代收集，它根据对象的存活周期的不同将内存划分为几块，一般是把Java堆分为新生代和老年代。在新生代中，每次垃圾收集时都会发现有大量对象死去，只有少量存活，因此可选用复制算法来完成收集，即Minor GC，而老年代中因为对象存活率高、没有额外空间对它进行分配担保，就必须使用标记—清除算法或标记—整理算法来进行回收，即Full GC。

四、垃圾收集器

基于JDK1.7Update 14之后的HotSpot虚拟机包含的所有收集器如图所示
垃圾收集器
图中展示了7种作用于不同分代的收集器，如果二个收集器之间存在连线，表示它们可以搭配使用。

Java虚拟机规范中对垃圾收集器应该如何实现并没有任何规定，实际上到目前为止还没有最好的收集器出现，更加没有万能的收集器，所以我们选择的只是对具体应用最合适的收集器。
Serial 收集器
它是最基本，发展历史最悠久的收集器，曾经是虚拟机新生代收集的唯一选择。特点就是，它是一个“单线程”的收集器，所谓“单线程”是指它不仅仅只会使用一个CPU或一条收集线程去完成垃圾收集工作，更重要的是，在它进行垃圾收集时，必须暂停其他所有的工作线程，直到它收集结束。这显然是很让人难以接受的，但是现代虚拟机不断优化，不断缩减停顿时间，将停顿时间完全可以控制在几十毫秒最多一百多毫秒以内，那么只要不是频繁发生，这点停顿完全可以接受。针对运行在Client模式下的虚拟机来说，例如用户的桌面应用场景，分配给虚拟机管理的内存一般来说不会太大，收集几十兆甚至一两百兆的新生代，Serial收集器完全够用。

parNew收集器
parNew是Serial的多线程版本，其核心就是就是运用多个线程进行垃圾收集。但是在单CPU的环境下绝对不会比Serial收集器有更好的效果，甚至由于存在线程交互的开销，该收集器在通过超线程技术实现的两个CPU的环境中都不可能百分之百地保证可以超越Serial收集器。但当可用CPU数量增多时，能够更加高效的利用系统资源。
parNew收集器除了多线程收集之外，其他与Serial收集器相比并没有太多创新之处，但它却是许多运行在Server模式下的虚拟机中首选的新生代收集器，其中一个原因就是，除了Serial收集器外，目前只有它能与CMS收集器配合工作。

Parallel Scavenge收集器
Parallel Scavenge收集器特别之处在于，其他收集器的关注点都是尽可能地缩短垃圾收集时用户线程的停顿时间，Parallel Scavenge收集器的目标则是达到一个控制的吞吐量。吞吐量=运行用户代码时间/(运行用户代码时间+垃圾收集时间)，假设虚拟机运行100分钟，垃圾收集花费1分钟，那么吞吐量就是99%。Parallel Scavenge收集器提供了很多可精确设置的细节参数，可以精确控制最大垃圾收集停顿时间还有吞吐量的大小，特别的，当自适应参数打开后，就不需要手动去指定新生代的大小等细节参数，虚拟机会根据当前系统的运行情况收集性能监控信息，动态调整这些参数以提供最合适的停顿时间或或者最大的吞吐量，这种方式就是所谓的GC 自适应调节策略。

Serial Old收集器
Serial Old收集器是Serial收集器的老年代版本，同样是单线程的，使用“标记-整理算法”。这个收集器主要意义也是在于给Client模式下的虚拟机使用。

Parallel Old收集器
Parallel Old收集器是 Parallel Scavenge的老年代版本，使用多线程和“标记-整理”算法。JDK 1.6 之后才开始提供了这个收集器。在注重吞吐量以及CPU资源敏感的场合，都可以优先考虑Parallel Scavenge加Parallel Old 收集器。

CMS收集器
CMS（Concurrent Mark Sweep）收集器是基于“标记-清除”算法实现的，它使用多线程的算法去扫描堆（标记）并对发现的未使用的对象进行回收（清除）。整个过程分为4个步骤：
1.初始标记
2.并发标记
3.重新标记
4.并发清除
其中初始标记、重新标记这两个步骤仍然需要“Stop The World”。初始标记仅仅只是标记一下GC Roots能直接关联到的对象，速度很快，并发标记阶段就是进行GC Roots Tracing的过程，而重新标记阶段则是为了修正并发标记期间，因用户程序继续运作而导致标记产生变动的那一部分对象的标记记录，这个阶段的停顿时间一般会比初始标记阶段稍长一些，但远比并发标记的时间短。

CMS收集器的缺点：
1.吞吐量低的它使用更多的 CPU，为了使应用程序提供更好的体验，通过使用多个线程来执行扫描和收集。
2.无法处理浮动垃圾，可能出现“Concurrent Mode Failure”失败而导致另一次Full GC的产生。由于CMS并发清理阶段用户线程还在运行着，伴随程序的运行自然还会有新的垃圾不断产生，这一部分垃圾出现在标记过程之后，CMS无法在本次收集中处理掉它们，只好留待下一次GC时再将其清理掉。这一部分垃圾就称为“浮动垃圾”。
3.基于标记-清除算法的它收集结束会产生大量碎片。

G1收集器
与其他收集器相比，G1收集器具备如下特点。
1.并行与并发
G1能充分利用多CPU、多核环境下的硬件优势，使用多个CPU来缩短Stop-The-World停顿的时间，部分其他收集器原本需要停顿Java线程执行的GC动作，G1收集器仍然可以通过并发的方式让Java程序继续执行。
2.分代收集
与其他收集器一样，分代概念在G1中依然得以保留。
3.空间整合
G1收集器是基于“标记-整理”算法实现的收集器，也就是说它不会产生空间碎片，这对于长时间运行的应用系统来说非常重要。
4.可预测的停顿
它可以非常精确地控制停顿，既能让使用者明确指定在一个长度为M毫秒的时间片段内，消耗在垃圾收集上的时间不得超过N毫秒，具备了一些实时Java（RTSJ）的垃圾收集器的特征。

如果不计算维护Remembered Set的操作，G1收集器的运作大致分为4个步骤：
1.初始标记
2.并发标记
3.最终标记
4.筛选回收
初始标记仅仅只是标记一下GC Roots能直接关联到的对象并修改TAMS(Next Top at Mark Start)的值。并发标记是从GC Root开始对堆中对象进行可达性分析。最终标记是为了修正在并发标记期间因用户程序继续运作而导致标记产生变动的那一部分标记记录。最后在筛选回收阶段对各个Region的回收价值和成本进行排序，根据用户所期望的GC停顿时间来制定回收计划。

【参考资料】
《深入理解JVM虚拟机》周志明著