JVM垃圾回收机制浅谈

版权声明:本文章为本人原创,转载请注明出处。 https://blog.csdn.net/hz_940611/article/details/87910749

一.前世今生

可能很多人都把垃圾回收(GC)这项技术作为Java语言的伴生产物。其实GC的历史比Java久远,早在1960年的Lisp语言中就使用了内存动态分配和垃圾回收技术。

二.哪些内存需要回收

JVM的内存结构包括五大区域:程序计数器、虚拟机栈、本地方法栈、方法区、堆。其中程序计数器、虚拟机栈、本地方法栈这三个区域是线程私有的,他们随线程而生、随线程而死,所以这几个区域的内存分配和回收都是确定的,方法结束或者线程结束时,内存自然就跟着回收了,这里就不过多考虑回收问题。而Java堆和方法区则不一样,这部分内存的分配和回收是动态的,正式垃圾收集器关注的部分。

垃圾收集器在对堆和方法区进行回收钱,首先要确定这些区域的对象哪些是可以被回收的,哪些暂时还不能回收,这就要用到判断对象是否存活的算法。

2.1 引用计数算法

2.1.1 算法分析

引用计数算法是垃圾收集器中的早期策略。在这种方法中,堆中每个对象实例都有一个引用计数。当一个对象被创建时,就将该对象实例分配给一个变量,该变量技术设置为1。当任何其他变量被赋值为这个对象的引用时,计数+1(a=b,则b引用的对象实例的计数器+1),但当一个对象实例的某个引用超过了声明周期或者被设置为一个新值时(比如此时设置a=c,则b不再被a引用),对象实例的引用计数器-1。任何引用计数器为0的对象实例可以被当做垃圾进行回收。当一个对象实例被垃圾收集时,他引用的任何对象实例的引用计数器-1。

2.2.2 优缺点

  • 优点:引用计数器算法执行的很快,对于程序需要不被长时间打断的实时环境比较有利
  • 缺点:无法检测出循环引用。如父对象有一个对子对象的引用,子对象反过来又有一个对父对象的引用。这样他们的引用计数永远不会为0,比如下面的代码
/**
 * <p>Coding</p>
 *
 * @author haozz
 * @version $Id: DemoClass.java, v 0.1 2019/2/23 22:54 haozz Exp $
 */
public class Test {
    public static void main(String[] args) {
        MyObject object1 = new MyObject();
        MyObject object2 = new MyObject();
        
        object1.object = object2;
        object2.object = object1;
        
        object1 = null;
        object2 = null;
    }
}

这段代码用来验证引用计数算法不能检测出循环引用。后面两句将object1和object2赋值为null,也就是说object1和object2指向的对象已经不能再被访问,但是由于他们互相引用对方,导致他们的引用计数器都不为0,那么垃圾收集器就永远不会回收他们。

2.2 可达性分析算法

可达性分析算法是从离散数学中引入的。程序会把所有的引用关系看做一张图,从一个GC ROOT开始,寻找对应的引用节点,找到这个节点以后,继续寻找这个节点的引用节点,当所有的引用节点寻找完毕之后,剩余的节点则被人是没有被引用到的节点,即无用的节点,无用的节点会被判定为是可回收的对象。如下图所示,其中黄色的部分会被认为是可回收的对象。

在Java语言中,以下对象可作为GC ROOT:

  • 虚拟机栈中引用的对象(栈帧中的本地变量表)
  • 方法区中类静态属性引用的对象
  • 方法区中常量引用的对象
  • 本地方法栈中JNI(native方法)引用的对象

2.3 Java中的引用

无论是通过引用计数算法判断对象的引用数量,还是通过可达性分析算法判断对象的引用链是否已可达,判定对象是否可回收都与“引用”有关。在Java语言中,引用分为强引用、软引用、弱引用、虚引用,这四种引用强度依次减弱。

  1. 强引用:在程序代码中普遍存在,类似Object obj = new Object();这样就属于强引用。只要强引用还在,垃圾收集器就永远不会回收掉被引用的对象
  2. 软引用:用来描述一些还有用但是非必须的对象。对于软引用关联着的对象,在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围之中进行第二次回收。如果这次回收后还没有足够的内存,才会抛出内存溢出异常
  3. 弱引用:也是用来描述非必须对象的,但是它的强度比软引用更弱一些。被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集器工作时,无论当前内存是否足够,都会收掉只被弱引用关联的对象
  4. 虚引用:又叫幽灵引用或欢迎引用,是最弱的一种引用关系。一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。它的作用是能在这个对象被收集器回收时收到一个系统通知

以上,无论引用计数算法还是可达性分析算法,都是基于强引用而言的。

2.4 对象被回收前的最后一次挣扎

即使在可达性分析算法中不可达的对象,也并不是“非死不可”,这时候他们暂时处于“缓刑”阶段,要真正宣告一个对象死亡,至少要经历两次标记过程。

第一次标记:如果对象在进行可达性分析后发现没有与GC ROOTs相连接的引用链,那它将被第一次标记;

第二次标记:第一次标记后接着会进行一次筛选,筛选的条件是次对象是否有必要执行finalize()方法。在finalize()方法中没有重新与引用链建立关联关系的,将被进行第二次标记。

第二次标记成功的对象将真的会被回收,如果对象在finalize()方法中重新与引用链建立了关联关系,那么将会逃离本次回收,继续存活。

2.5 方法区如何判断是否需要回收

方法区存储的内容是否需要回收的判断就不一样了。方法区主要回收的内容有:废弃常量和无用的类。对于飞起常量也可通过引用的可达性来判断,但是对于无用的类则需要同时满足下面3个条件:

  • 该类所有的实例都已经被回收,也就是Java堆中不存在该类的任何实例;
  • 加载该类的ClassLoader已经被回收;
  • 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。

三.常用的垃圾收集算范

3.1 标记-清除算法

标记-清除算法采用从根集合(GC ROOTs)进行扫描,对存活的对象进行标记,标记完毕后,再扫描整个空间中未被标记的对象,进行回收,如下图所示。标记-清除算法不需要进行对象的移动,只需对不存活的对象进行处理,在存活对象比较多的情况下极为高效。但由于标记-清除算法直接回收不存活的对象而不进行移动,因此会造成内存碎片。

关于内存碎片,我的理解是,上图中因为B在A和C的中间,将B清理之后由于没有对象移动,所以A和C之间会有一个位置没有存放对象,就把这个区域成为内存碎片。

3.2 复制算法

复制算法的提出是为了克服句柄的开销和解决内存碎片的问题。它开始时把堆分成一个对象面和多个空闲面,程序从对象面为对象分配空间,当对象满了,基于copying算法的垃圾收集器就从根集合(GC ROOTs)中扫描活动对象,并将每个活动对象复制到空闲面(使得活动对象所占的内存之间没有空闲洞),这样空闲面就变成了对象面,原来的对象面变成了空闲面,程序会在新的对象面中分配内存。

3.3 标记-整理算法

标记-整理算法采用标记-清除算法一样的方式进行对象的标记,但在清除时不同,在回收不存活的对象占用的空间后,会将所有的存活对象往左端空闲空间移动,并更新对应的指针。标记-整理算法是在标记-清除算法的基础上,又进行了对象的移动,因此成本更高,但是却解决了内存碎片的问题。具体流程见下图:

3.4 分代收集算法

分代收集算法是目前大部分JVM的垃圾收集器采用的算法。它的核心思想是根据对象存活的生命周期将内存划分为若干个不同的区域。一般情况下将堆区划分为老年代(Tenured Generation)和新生代(Young Generation),在堆区之外还有一个代就是永久代(Permanet Generation)。老年代的特点是每次垃圾收集时只有少量对象需要被回收,而新生代的特点是每次垃圾回收时都有大量的对象需要被回收,那么就可以根据不同代的特点采取最适合收集算法。

3.4.1 新生代(Young Generation)的回收算法

  1. 所有新生成的对象都是放在新生代的。新生代的目标就是尽可能快速的收集生命周期短的对象。
  2. 新生代内存按照8:1:1的比例分为一个eden区和两个survivor(survivor0,survivor1)区。大部分对象在eden区生成。回收时先将eden区存活的对象复制到survivor0区,然后清空eden区。当这个survivor0区也存放满了,则将eden区和survivor0区存活的对象复制到survivor1区,然后清空eden区和survivor0区,此时survivor0区是空的,然后将survivor0区和survivor1区互换,即保持survivor1区为空,如此往复。
  3. 当survivor1区不足以存放eden区和survivor0区的存活对象时,九江存活对象直接存放到老年代。若是老年代也满了就会触发一次Full GC,也就是将新生代、老年代都进行回收。
  4. 新生代发生的GC也叫作Minor GC,Minor GC发生的频率比较高(不一定等eden区满了才触发)。

3.4.2 老年代(Tenured Generation)的回收算法

  1. 在新生代中经历了N次垃圾回收后仍然存活的对象,就会被放到老年代中。因此,可以认为老年代中存放的都是一些生命周期较长的对象。
  2. 老年代的内存比新生代也大很多(大概比例是2:1),当老年代内存满时触发Major GC即Full GC,Full GC发生频率比较低,老年代对象存活时间比较长,存活率比较高。

3.4.3 永久代(Permanet Generation)的回收算法

永久代用于存放静态文件,如Java类、方法等,对于垃圾回收没有显著影响,但是有些应用可能动态生成或者调用一些class,例如Hibernate等,在这种时候需要设置一个比较大的永久代空间来存放这些运行过程中新增的类。永久代也成方法区,具体的回收细则可参见2.5 方法区如何判断是否需要回收

四.常见的垃圾收集器

下图是HotSpot虚拟机包含的所有收集器:

  • Serial收集器(复制算法):新生代单线程收集器,标记和清理都是单线程,优点是简单高效。是client级别默认的GC方式,可以通过-XX:+UseSerialGC来强制指定
  • Serial Old收集器(标记-整理算法):老年代单线程收集器,Serial收集器的老年代版本
  • ParNew收集器(停止-复制算法):新生代收集器,可以认为是Serial收集器的多线程版本,在多喝CPU环境下有着比Serial更好的表现
  • Parallel Scavenge收集器(停止-复制算法):并行收集器,追求高吞吐量,高效利用CPU。吞吐量一般为99%,吞吐量=用户线程时间/(用户线程时间+GC线程时间)。适合后台应用等对交互响应要求不高的场景。是server级别默认采用的GC方式,可用-XX:+UseParallelGC来强制指定,用-XX:ParallelGCThreads=4来指定线程数。
  • Parallel Old收集器(停止-复制算法):Parallel Scavenge收集器的老年代版本,并行收集器,吞吐量优先。
  • CMS(Concurrent Mark Sweep)收集器(标记-清理算法):高并发、低停顿,追求最短GC回收停顿时间,CPU占用比较高,响应时间快,停顿时间短,多核CPU追求高响应时间的选择。

五. GC是什么时候出发的

由于对象进行了分代处理,因此垃圾回收区域、时间也不一样。GC有两种类型:Scavenge GC和Full GC。

5.1 Scavenge GC

一般情况下,当新对象生成,并且在eden区申请空间失败时,就会触发Scavenge GC,对eden区进行GC,清除非存活对象,并且把尚且存活的对象移动到survivor区,然后整理两个survivor区。这种方式的GC是对新生代的eden区记性,不会影响到老年代。因为大部分对象都是从eden去开始的,同时eden区不会分配的很大,所以eden区的GC会频繁进行。所以一般在这里需要使用速度快、效率高的算法,是eden区能尽快空闲出来。

5.2 Full GC

对整个堆进行整理,包括新生代、老年代和永久代。Full GC因为需要对整个堆进行回收,所以比Scavenge GC要慢,因此应该尽可能减少Full GC的次数。在对JVM调优的过程中,很大一部分工作就是对于Full GC的调节。有如下原因可能导致Full GC:

  1. 老年代被写满;
  2. 永久代被写满;
  3. System.gc();被显式调用;
  4. 上一次GC之后heap的各域分配策略动态变化。

猜你喜欢

转载自blog.csdn.net/hz_940611/article/details/87910749