Java GC:基础原理

Java 使用了垃圾收集器来代替手动管理内存,对于垃圾收集器来说,无论哪种,其核心思想都是做两件事:

  1. 找到哪些对象是存活的(还在使用)
  2. 清除死掉的(不再使用)的对象

标记存活对象:

引用计数法

最直接,最容易想到的标记方法是引用计数法,顾明思议,记录每个对象被引用的个数,如果为0,则为死亡对象。该方法实现简单,判断效率高,但很难解决对象之间相互循环引用的问题。

可达性分析计算

在JVM中使用了可达性分析计算的方式来标记存活对象,GC 定义了一些特殊的对象作为 GC Roots:

  • 栈帧中的本地变量和参数
  • 活跃线程
  • 已加载的静态变量
  • JNI 引用

以 GC Roots 作为起始点,沿着引用路径不断搜索,同时标记搜索到的对象为存活。

注意,在标记阶段,需要停止应用线程(Stop the World),因为没有办法在应用程序不断改变引用关系的同时一边标记。暂停的时间取决于存活对象的多少,存活的对象越多,需要标记的时间越长。

清除死亡对象

Sweep and Compact

在学术上,标记清除算法是最具代表性的算法:

Marking: 通过 GC Roots 开始搜索标记可达的对象

Sweeping: 使得被未标记的对象占用的内存空间可以被之后分配使用

但是这样直接 Sweep 会存在两个问题:

  • 写操作时需要寻找可用块,会更加费时
  • 空间碎片太多会导致分配较大对象时无法得到足够连续内存

为了避免这个问题,还需要做一次碎片整理

Copy

还有一种更简单的方法,将内存分为两块,每次只使用其中的一块区域,发生 GC 时,将存活的对象复制到另一个区域中,这样也不会出现碎片的问题,此外,复制可以在标记的同时进行,更加高效。缺点也很明显,需要更多的内存。这种算法被称为标记-复制算法。

分代假说

研究人员观察到,应用程序内的大多数分配分为两类:

  • 大部分对象创建后很快就不再使用
  • 有一些对象会存活很长一段时间

基于这个假设,虚拟机将内存分为了两个代,分别为 新生代(Young Generation), 和老年代(Old Generation or Tenured)。

那么针对不同代的特点,可以有针对性的进行算法优化,一般来说将算法分为 Mionr GC(只回收新生代对象)和 Full GC(全局回收)。 这个假设也存在两个问题:

  • 两个代之间的对象可能存在引用,即使只进行 Mionr gc,也需要扫描一遍老年代对象检查是否存在老年代对象引用新生代对象,违背了分代的初衷
  • 分代假设可能不适用于某些应用。由于GC对算法是专门针对快速死亡的对象和存活长时间的对象进行了优化,因此对有“中等”寿命的对象的处理,JVM 表现的不太好

内存划分

通常情况下 Eden 是对象创建时被分配的区域。由于涉及到多个线程同时创建对象,Eden 被划分成了一个或多个 Thread Local Allocation Buffer (TLAB) ,简单来说,每个线程都被分配了一块区域用于本线程的对象分配(避免的线程同步代价),如果分配的内存不够使用了,则使用共有的部分(申请新的TLAB),如果再不够,则触发一次新生代 GC(Minor GC) ,如果清理后的内存仍然不够,则将对象分配在老年代。

在 Mionr GC 时,首先通过 GC Roots 扫描标记所有存活的对象,需要注意之前提到过,老年代的对象也有可能引用新生代对象。对于这个问题,JVM 使用了 card-marking 来避免老年代的扫描。HotSpot 使用了卡表(Card Table)的技术,将整个堆划分为一个个大小为512字节的卡,如果卡中的对象可能指向新生代对象引用,那么这张卡是脏的,同时 JVM 维护了一个卡表,每张卡都有一个对应的标识位来表示是否是脏卡。那么在进行 Minor GC 时,只需将脏卡中的对象将入到 GC Roots 里,而不用扫描整个老年代。

完成标记后,将所有存活的对象复制到其中一个 Survivor 区中,此后整个 Eden 区的内存都可以重新被使用了。这个算法也叫做“标记-复制“算法(Mark and Copy)。 Survivor 分为 from 和 to 两个区域(每次GC后身份互换),其中 to 区域永远是空的,当GC完成标记后,Eden 和 from 区域的存活对象都复制到 to 区域中,from区域清空,两个区域身份互换。

对象可能在两个 Survivor 中不断的来回复制,当复制达到一定次数时(默认15次),将被认为足够老,晋升到老年代中。此外,如果 Survivor 区域大小不够存放所有存活对象,则会将较老的对象提前晋升到老年代中。

老年代内存要大的多,并且大多数对象都不会是垃圾,并且发生GC的频率要相对小的多,所以复制算法不适用。一般来说,使用“标记-清除-整理“的算法对老年代进行回收。

图片来源及参考资料:《Plumbr Handbook Java Garbage Collection》

猜你喜欢

转载自juejin.im/post/5d6dc5856fb9a06b122f5799