JVM篇--垃圾回收算法精讲(呕心沥血整理)

为什么要垃圾回收？

答：java语言中一个显著的特点就是引入垃圾回收机制，使C++程序员最头疼的内存管理的问题影刃而解。由于有个垃圾回收机制，java对象不再有“作用域”的概念，只有对象的引用菜有“作用域”。垃圾回收可以有效的防止内存泄露，有效的使用空闲内存。

垃圾收集器在对堆区和方法区进行回收前，首先要确定这些区域对象哪些可以被回收，哪些暂时还不能回收，这就要用到判断对象是否存活的算法！

1.引用计数法

引用计数法方法：引用方对对象进行调用的时候就给它的引用值+1，当引用断开之后进行-1

优缺点：

引用计数器可以很快的执行，交织在程序运行中。对程序需要不被长时间打断的实时环境比较有利。
但是无法检测出循环引用，如果两个对象互相引用，会发生类似死锁的问题，引用计数法一直觉得有对象在引用就一直释放不了内存

1.1 对象是否存活判断？

堆中每个对象实例都有一个引用计数。当一个对象被创建时，且将该对象实例分配给一个变量，该变量计数设置为1。当任何其他变量被赋值为这个对象的引用时，计数加1(a=b，则b引用的对象实例的计数器+1)，但当一个对象实例的某个引用超过了生命周期或者被设置为一个新值时，对象实例的引用计数器减1。任何引用计数器为0的对象实例都可以被当作垃圾收集。当一个对象实例被垃圾收集时，它引用的任何对象实例的引用计数器减1。

JVM虚拟机不是通过引用计数法来收集的，而是用对象存活算法可达性分析来标记要清除的垃圾的。

1.1 对象存活算法可达性分析

Java为了解决引用计数法循环引用不了的问题，采取了可达性分析算法，该方法的基本思想是通过一系列的”GC Roots”对象作为起点进行搜索，如果在”GC Roots”和一个对象之间没有可达路径，则称该对象是不可达的，不过要注意被判定不可达的对象不一定就会成为可回收对象，被判定不可达对象要成为可回收对象至少精力两次标记过程，如果在这两次标记过程中仍然没有逃脱成为可回收对象的可能性，则基本上就真的成为可回收对象了。

在Java中可作为”GC ROOT”的对象有：

虚拟机栈中引用的对象(本地变量表)(可以理解为：引用栈帧中的本地变量表所有对象)
方法区中静态属性引用的对象(可以理解为:引用方法区该静态属性的所有对象)
方法区中常量引用的对象(可以理解为:引用方法区中常量的所有对象)
本地方法栈中引用的对象(可以理解为:引用Native方法的所有对象)

首先第一种是虚拟机栈中的引用的对象，我们在程序中正常创建一个对象，对象会在堆上开辟一块空间，同时会将这块空间的地址作为引用保存到虚拟机栈中，如果对象生命周期结束了，那么引用就会从虚拟机栈中出栈，因此如果在虚拟机栈中有引用，就说明这个对象还是有用的，这种情况是最常见的。
第二种是我们在类中定义了全局的静态的对象，也就是使用了static关键字，由于虚拟机栈是线程私有的，所以这种对象的引用会保存在共有的方法区中，显然将方法区中的静态引用作为GC Roots是必须的。
第三种便是常量引用，就是使用了static final关键字，由于这种引用初始化之后不会修改，所以方法区常量池里的引用的对象也应该作为GC Roots。最后一种是在使用JNI技术时，有时候单纯的Java代码并不能满足我们的需求，我们可能需要在Java中调用C或C++的代码，因此会使用native方法，JVM内存中专门有一块本地方法栈，用来保存这些对象的引用，所以本地方法栈中引用的对象也会被作为GC Roots

在JDK1.2之后，Java对引用这个概念进行了扩充，也就是对象不仅仅只有引用和没有引用两个概念，而是扩展到了4个：

强引用：类似于“Object obj=new Object（）”只要强引用在，垃圾收集器永远不会回收掉被引用的对象。
软引用：是用来描述一些还有用但是并非必需的对象，对于软引用对象，在内存溢出异常之前，会把这些对象列进回收范围之中进行第二次回收。
弱引用，比软引用更弱一点，被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集发生时无论内存是否足够，都会只回收弱引用的对象。
虚引用，最弱的引用关系，对象是否有虚引用对其生存时间是没有影响的。唯一目的就是能在这个对象被收集器回收时收到一个系统通知。

对象要想真正宣告“死亡”需要至少两次的标记过程，当对象在可达性分析时候发现没有被GC Roots链到那么对象就会进行第一次标记并且进行第一次筛选，筛选的条件就是判断该对象有没有必要执行finalize()方法，需要执行的话就会把对象放入F-Queue的对列中去执行该对象中的finalize()方法。如果finalize()方法让对象重新被GC Roots链到那么对象就重新活下来，否则就会进行第二次标记，等待垃圾回收的到来

2.标记清除

最基础的收集算法“标记-清除”(Mark-Sweep)算法，如同它的名字一样，算法分为“标记”和“清除”两个阶段，首先标记出所有需要回收的对象，在标记完成后统一回收所欲被标记的对象，它的标记过程其实就是可达性分析法方式

当黑色区域的内存回收以后，就会出现回收后的图，变成一个不连续的内存，假如此刻我需要五个可用内存，就会无法找到足够的连续内存的情况。也就是说会出现空间碎片。

标记-清除在被回收垃圾比较少的情况下比较高效，也有不足的地方，主要有两个：

效率问题，标记和清除的两个过程的效率都不高；
空间问题，标记清除之后会产生大量不连续的内存碎片，空间碎片太多可能导致以后在程序运行过程中需要分配较大对象时，无法找到足够的连续内存而不得不提前触发另一次垃圾收集操作。

接下来能猜到，一个缺陷总会随着时间开发人员作出相应修改，作出更优的方法，那么，复制算法应运而生

3.复制算法

3.1 为什么出现复制算法？

为了解决效率问题，一种称为复制的收集算法出现了，它将可用内存按量划分为大小相等的两块，每次只使用其中的一块。
当这一块的内存用完了，就将还存活的对象复制到另外一块上面，然后再把已使用过的内存一次清理掉。这样使得每次都是对整个半区进行内存回收，内存分配时也就不用考虑内存碎片等复杂情况，只要移动堆顶指针，按顺序分配内存即可，实现简单，运行高效。

注意：复制算法过程中没有在使用可达性分析方法，因为过程中不用标记是否是要删除的内容，而是遍历把存活的内容进行复，然后直接清除另一个内存即可。

3.2 复制算法使用场景？

Java堆能分成新生代和老年代，所有新生成的对象首先都是放在新生代的。新生代的目标就是尽可能快速的收集掉那些生命周期短的对象。那么这里的复制算法主要就是收集新生代的垃圾对象。现在的商业虚拟机都采用这种收集算法来回收新生代，研究表明，新生代中的对象98%是“朝生夕死”的，所以并不需要按照1:1的比例来划分内存空间，而是将内存分为一块较大的Eden空间和两块较小的Survivor空间(一般而言)，每次使用Eden和其中一块Survivor。

新生代分三个区，一个Eden区，两个Survivor区，大部分对象在Eden区生成，当Eden区满了还存活的对象就会被复制到Survivor区(两个Survivor中的一个)。

Survivor分两个空间，from Survivor和to Survivor,那么Eden、from Survivor、to Survivor的内存比例是8:1:1，划分的目的是因为HotSpot采用复制算法来回收新生代，设置这个比例是为了充分利用内存空间，减少浪费。

3.3 堆结构分代的意义？

Java虚拟机根据对象存活的周期不同，把堆内存划分为几块，一般分为新生代、老年代和永久代（对HotSpot虚拟机而言，jdk1.8之后永久代变为metaspace，也就是叫元空间），这就是JVM的内存分代策略。
　　堆内存是虚拟机管理的内存中最大的一块，也是垃圾回收最频繁的一块区域，我们程序所有的对象实例都存放在堆内存中。给堆内存分代是为了提高对象内存分配和垃圾回收的效率。试想一下，如果堆内存没有区域划分，所有的新创建的对象和生命周期很长的对象放在一起，随着程序的执行，堆内存需要频繁进行垃圾收集，而每次回收都要遍历所有的对象，遍历这些对象所花费的时间代价是巨大的，会严重影响我们的GC效率。
　　有了内存分代，情况就不同了，新创建的对象会在新生代中分配内存，经过多次回收仍然存活下来的对象存放在老年代中，静态属性、类信息等存放在永久代中，新生代中的对象存活时间短，只需要在新生代区域中频繁进行GC，老年代中对象生命周期长，内存回收的频率相对较低，不需要频繁进行回收，永久代中回收效果太差，一般不进行垃圾回收，还可以根据不同年代的特点采用合适的垃圾收集算法。分代收集大大提升了收集效率，这些都是内存分代带来的好处。

3.4 新生代回收的流程？

新生成的对象在Eden区分配（大对象除外，大对象直接进入老年代），当Eden区没有足够的空间进行分配时，虚拟机将发起一次Minor GC

　GC开始时，对象只会存在于Eden区和From Survivor区，To Survivor区是空的（作为保留区域）。GC进行时，Eden区中所有存活的对象都会被复制到To Survivor区，而在From Survivor区中，仍存活的对象会根据它们的年龄值决定去向，年龄值达到年龄阀值（默认为15，新生代中的对象每熬过一轮垃圾回收，年龄值就加1，GC分代年龄存储在对象的header中）的对象会被移到老年代中，没有达到阀值的对象会被复制到To Survivor区。接着清空Eden区和From Survivor区，新生代中存活的对象都在To Survivor区。接着， From Survivor区和To Survivor区会交换它们的角色，也就是新的To Survivor区就是上次GC清空的From Survivor区，新的From Survivor区就是上次GC的To Survivor区，总之，不管怎样都会保证To Survivor区在一轮GC后是空的。GC时当To Survivor区没有足够的空间存放上一次新生代收集下来的存活对象时，需要依赖其他内存(这里指老年代)进行分配担保。

3.5 标记整理算法与分代收集算法

标记整理算法是回收老年代方法。

3.5.1 标记整理算法解决了什么问题？

复制收集算法在对象存活率较高时要进行较多的复制操作、效率就会变低。更关键的是，如果不想浪费50%的空间，就需要用额外的空间进行分配担保，以应对被使用的内存中所有对象都100%存活的极端情况，所以老年代一般不能直接选用这种算法。

3.5.2 标记整理回收的流程?

根据老年代的特点，有人提出了另外一种”标记-整理”算法，标记过程仍然与标记清除算法一样，但后续步骤不是直接对可回收对象进行清理，而是让所有存活对象都向一端移动，然后直接清理掉边界以外的内存

作为对比说一下标记-清除：首先标记出所有需要回收的对象，在标记完成之后统一回收所有标记的对象

3.5.3 分代收集

分代收集算法是目前大部分JVM的垃圾收集器采用的算法。

一般把java堆分为新生代和老年代，这样就可以根据各个年代的特点采用最适当的收集算法。

在新生代中，每次垃圾收集时都会发现有大批对象死去，只有少量对象存活，那就使用复制算法，只需要付出少量存活对象的复制成本就可以完成收集，而老年代中因为对象存活率高，没有额外空间对它进行分配担保，就必须使用“标记-整理”或者“标记-清除”算法来进行回收。

可算码完了，整理以后还是发觉知识点很多，需要学的也很多，大家加油把！