Java类加载机制（二）

验证

验证是连接阶段第一步，这一阶段目的是确保class文件字节流信息符合当前虚拟机要求，并且不会危害虚拟机自身安全。

Java语言相对于c/c++是安全的，使用纯粹的Java代码无法做到如访问数组边界以外的数据，将一个对象转型为它并未实现的类型、跳转到不存在的代码行之类的事，如果这样做了，编译器将拒绝编译。但是class文件并不一定从Java源码编译而来，可以使用任何途径产生，甚至可以用十六进制编辑器直接编写class文件。在字节码预言层面上，上述Java代码无法做到的事情都是可以实现的，至少语义上可以表达出来。虚拟机如果不检查输入的字节流，对其完全信任的话，很可能会因为载入了有害的字节流而导致系统崩溃，所以验证是虚拟机对自身保护的重要工作。

验证阶段非常重要，这个阶段严谨与否决定了Java虚拟机是否能承受恶意代码的攻击，从执行性能上说，验证阶段的工作量在虚拟机类加载子系统中占了相当大一部分。

验证阶段大致会完成下面4个阶段的检验动作：文件格式验证，元数据验证，字节码验证，符号引用验证

文件格式验证：

第一阶段验验证字节流是否符合class文件格式规范，并且能被当前版本的虚拟机处理。这一阶段可能包括下面这些点：

是否以魔数0xCAFEBABE开头。

主次版本号是否在当前虚拟机处理范围内。

常量池的常量是否有不被支持的常量类型。

CONSTANT_utf8_info型常量中是否有不符合UTF8编码的数据。

等等

第一阶段的验证点远不止这些，该验证阶段的主要目的是保证输入的字节流能正确地解析并存储于方法区之内，格式上符合一个Java类型信息的要求。这阶段的验证是基于二进制字节流进行的，只有通过了这个阶段的验证，字节流才会进入内存的方法区中进行存储，所以后面的3个验证阶段全部是基于方法区的存储结构进行的，不会再直接操作字节流。

元数据验证:

第二阶段是对字节码描述的信息进行语义分析，以保证其描述的信息符合Java语言规范的要求，这个阶段可能包括的验证点如下：

这个类是否有父类（除Object外，所有的类有应该有父类）

这个类是否继承了不允许被继承的类（被final修饰的类）

如果这个类不是抽象类，是否实现了其父类或接口中要求实现的所有方法

等等

第二阶段的主要目的是对类的元数据信息进行语义校验，保证不存在不符合Java语言规范的元数据信息。

字节码验证：

第三阶段是整个验证阶段最复杂的一个阶段，主要目的是通过数据流和控制流分析确定程序语义是合法的，符合逻辑的。在第二个阶段对元数据信息中的数据类型做完校验后，这个阶段将对类的方法体进行校验分析，保证被校验类的方法在运行时不会做出危害虚拟机安全的事，例如：

保证跳转指令不会跳转到方法体之外的字节码指令上。

保证方法体中的类型转换是有效的，例如把子类对象赋值给父类数据类型，这是安全的，但是把父类对象赋值给子类数据类型，甚至把对象赋值给与他毫无关系数据类型，是危险和不合法的。

如果一个类方法体的字节码没有通过字节码验证，那肯定是有问题的；但是如果通过了字节码验证，也不能说明其一定就是安全的。通过程序校验程序逻辑是无法做到绝对准确的。

JDK1.6之后Javac编译器和Java虚拟机进行了一项优化，给方法体的code属性的属性表中增加了一项名为stackMapTable的属性，这项属性描述了方法体中所有的基本快，开始时本地变量表和操作栈应有的状态，在字节码验证期间，就不需要根据程序推导这些状态的合法性，这需要检查stackMapTable属性中的记录是否合法即可。这样字节码验证的类型推导转变为类型检查，从而节省一些时间。

理论上stackMapTable属性也存在错误或篡改的可能，所以是否有可能在恶意篡改了code属性的同时，也生成相应的stackMapTable属性来骗过虚拟机的类型校验。

jdk1.6时还可以通过参数来关闭stackMapTable，在1.7之后，对于主版本号大于50的class文件，使用类型检查来完成数据流分析校验则是唯一选择，不允许再退回到类型推导的校验方式。

符号引用验证

最后一个阶段发生在虚拟机将符号引用转化为直接引用的时候，这个转化动作发生在连接的第三阶段---解析阶段中进行。符号引用验证可以看做对类自身以外（常量池中的各种符号引用）的信息就行匹配性校验，通过需要校验：

符号引用中字符串描述的全限定名是否能找到对应的类。

在指定类中是否存在符合方法的字段描述符以及简单名称所描述的方法和字段。

符号引用中的类、字段、方法的访问性是否可以被当前类访问。

符号引用验证的目的是确保解析动作能正常执行。对于虚拟机的类加载机制来说，验证阶段是一个非常重要、但不是一定必要（因为对程序运行期没有影响）的阶段。那么在实施阶段就可以考虑使用-Xverify:none参数关闭大部分类验证措施，以缩短虚拟机类加载时间。

准备

准备阶段是正式为类变量分配内存并设置类变量初始值的阶段，这些变量所使用的内存都将在方法区中进行分配。这个阶段中又两个容易混淆的概念强调一下，首先，这时候进行内存分配的仅包括类变量（被static修饰的变量），而不包括实例变量，实例变量将会在对象实例化时随着对象一起分配在Java堆中。其次，这里所说的初始值通常情况下是数据类型的零值，假设一个类变量的定义为：

public static int value = 123；

那变量value在准备阶段过后的初始值为0而不是123，因为这时候尚未开始执行任何Java方法，而把value赋值为123的putstatic指令是程序被编译后，存放于类构造器<clinit>方法之中，所以把value赋值为123的动作将在初始化阶段才会进行。

上面提到，在通常情况下初始值是零值，相对就会有特殊情况：如果类字段的字段属性表中存在constantValue属性，那在准备阶段变量value就会被初始化为constantvalue属性所指定的值，假设上面类变量value定义为：

public static final int value = 123

编译时Javac将会为value生成constantvalue属性，在准备阶段虚拟机就会根据constantvalue的设置将value设置为123。

解析

解析阶段是虚拟机将常量池中符号引用替换为直接引用的过程，符号引用在class文件中以CONSTANT_class_info、CONSTANT_fieldref_info、CONSTANT_Methodref_info等类型的常量出现，那解析阶段的直接引用与符号引用又有什么关联呢？

符号引用是以一组符号来描述所引用的目标，符号可以是任何形式的字面量，只要使用时能无歧义定位到目标即可。符号引用与虚拟机实现的内存布局无关，引用的目标并不一定已经加载到内存中。各种虚拟机实现的内存布局可以各不相同，但是它们能接受的符号引用必须都是一致的，因为符号引用的字面量形式明确定义在Java虚拟机规范的class文件格式中。

直接引用时可以直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄，直接引用是和虚拟机实现的内存布局相关的，同一个符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用，那引用的目标必定存在于内存中。

虚拟机规范并未规定解析阶段发生的具体时间，只要求了在执行getstatic、putstatic、invokestatic等16个用于操作符号引用的字节码指令之前，先对他们所使用的符号引用进行解析。所以虚拟机实现可以根据需要来判断到底是在类加载器加载时就对常量池中的符号引用进行解析，还是等到一个符号引用将要被使用前才去解析它。

对于同一个符号引用进行多次解析请求是很常见的事，除invokedynamic（动态调用）指令外，虚拟机可以实现对第一次解析的结果进行缓存，在运行时常量池中记录，从而避免解析动作重复进行。无论是否真正执行了多次解析动作，虚拟机需要保证的是在同一个实体中，如果一个符号引用之前已经被成功解析过，那么后续的引用解析请求就应当一直成功；同样的，如果第一次解析失败，那么其他指令对这个符号的解析请求也应该收到相同的异常。（要么全成功要么全失败）

invokedynamic指令不符合上面规则。当碰到某个前面已经由invokedynamic指令触发过解析的符号引用时，并不意味着这个解析结果对于其他invokedynamic指令同样生效。因为invokedynamic指令的目的本来就是用于动态语言支持，它所对应的引用称为“动态调用点限定符”，这里动态的含义就是必须等到程序实际运行到这条指令时，解析动作才进行。相对的，其余可触发的指令都是静态的，可以在刚刚完成加载阶段，还没有开始执行代码时就进行解析。

解析动作主要针对类或接口、字段、类方法、接口方法、方法类型、方法句柄和调用点限定符7类符号引用进行，下面讲下前4种引用解析过程。

1.类或接口的解析

假设代码存于类D，如果要把一个从未解析的符号引用N解析为一个类或者接口C的直接引用，那虚拟机完成整个解析过程需要以下3个步骤：

（1）如果C不是数组类型，那虚拟机将会把N的全限定名传递给D的类加载器去加载这个类C。在加载过程中，由于元数据验证、字节码验证的需要，又可能触发其他相关类的加载动作，例如加载这个类的父类或者实现的接口。一旦这个加载过程出现问题，解析过程就宣告失败。

（2）如果C是数组类型，并且数组的元素类型为对象，也就是N的描述符类似“Ljava/lang/Integer”这种形式，需要加载的元素类型就是java.lang.Integer，接着由虚拟机生成一个代表此数组维度和元素的数组对象。

（3）如果上面的步骤没有出现异常，那么C在虚拟机中实际上已经成为了一个有效的类或者接口了，但在解析完成之前还有符号引用验证，确认D是否具备对C的访问权限。如果发现不具备访问权限，将抛出异常。

2.字段解析

要解析一个未被解析过的字段符号引用，首先会对字段表中的class_index项中索引的class_info符号引用进行解析，也就是字段所属的类或接口的符号引用。如果在解析这个类或接口符号引用的过程中出现了任何异常，都会导致字段符号引用解析失败。如果解析成功完成，那将这个字段所属的类或接口用C表示，虚拟机规范要求按照如下步骤对C进行后续字段的搜索。

（1）如果C本身就包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。

（2）否则，如果C实现了接口，将会按照继承关系从下往上递归搜索各个接口和他们的父接口，如果接口中包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。

（3）否则，如果C不是Object的话，将会按照继承关系从下往上递归搜索其父类，如果在父类中包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。

（4）否则，查找失败，抛出java.lang.NoSuchFieldError异常。

如果查找过程成功返回了引用，将会对这个字段就行权限验证，如果发现不具备字段的访问权限，将抛出java.lang.IllegalAccessError异常。

在实际应用中，虚拟机的编译器实现可能会比上述规范要求得更严格一些，如果有一个同名字段同时出现在C的接口和父类中，或者同时在自己或父类的多个接口中出现，那编译器将可能拒绝编译。

3.类方法解析

类方法解析的第一个步骤与字段解析一样，也需要先解析出类方法表的class_index项中索引的方法所属的类或接口的符号引用，如果解析成功，我们依然用C表示这个类，接下来虚拟机将会按照如下步骤进行后续的类方法搜索。

（1）类方法和接口方法符号引用的常量类型定义是分开的，如果在类方法表中发现class_index中索引的C是个接口，那就直接抛出异常。

（2）如果通过了第一步，在类C中查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。

（3）否则，递归搜索父类是否有简单名称与描述符都与目标相匹配的方法，有则返回这个方法的直接引用，查找结束。

（4）否则，递归查找接口与父接口，如果存在则返回这个方法的直接引用，查找结束。

（5）否则，宣告方法查找失败。

最后，如果查找过程成功返回了直接引用，将会对这个方法进行权限验证，如果发现不具备访问权限，抛出异常。

4.接口方法解析

接口方法也需要先解析出接口方法表的class_index项中索引的方法所属的类或接口的符号引用，如果解析成功，依然有C表示这个接口，接下来虚拟机将会按照如下步骤进行后续的接口方法搜索。

（1）与类方法解析不同，如果在接口方法表中发现class_index中的索引C是个类而不是接口，那就直接抛出异常。

（2）否则，在接口C中查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。

（3）否则，在接口C的父接口中递归查找，直到java.lang.Object类（查找范围会包括Object类）为止，看是否有简单名称与描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。

（4）否则方法查找失败，抛出异常。

由于接口中所有方法默认都是public，所以不存在访问权限问题，因此接口方法的符号介意应当不会抛出权限访问的异常。

初始化

类初始化阶段是类加载过程的最后一步，前面的类加载过程中，除了在加载阶段用户应用程序可以通过自定义类加载器参与之外，其余动作完全由虚拟机主导和控制。到了初始化阶段，才真正开始执行类中定义的Java程序代码（或者说是字节码）。

在准备阶段，变量已经赋过一次系统要求的初始值，而在初始化阶段，则根据程序员通过程序制定的主观计划去初始化类变量和其他资源，或者可以从另外一个角度来表达：初始化阶段是执行类构造器clinit方法的过程。

<clinit>方法是由编译器自动收集类中的所有类变量的赋值动作和静态语句块（static块）中的语句合并产生的，编译器收集的顺序是由语句在源文件中出现的顺序决定的，静态语句块中只能访问到定义在静态语句块之前的变量，定义在它之后的变量，在前面的静态语句块可以赋值，但是不能访问。

clinit方法与类的构造函数（或者说实例构造器）不同，他不需要显示的调用父类构造器，虚拟机会保证在子类clinit方法执行之前，父类的clinit方法已经执行完毕。因此在虚拟机中第一个被执行clinit()方法的类肯定是Object。

由于父类clinit方法先执行，也就意味着父类中定义的静态语句块要优先于子类的变量赋值操作，下图中，B的值是2不是1。

clinit方法对于类或接口来说不是必需的，如果一个类中没有静态语句块，也没有对变量的赋值操作，那么编译器可以不为这个类生成clinit方法。

接口中不能使用静态语句块，但仍有变量初始化的赋值操作，因此接口与类一样都会生成clinit方法。但接口与类不同的是，执行接口的clinit方法不需要先执行父接口的clinit方法。只有当父接口中定义的变量使用时，父接口才会初始化。另外，接口的实现类在初始化时也一样不会执行接口的clinit方法。

虚拟机会保证一个类的clinit方法在多线程环境中被正确地加锁、同步，如果多个线程同时去初始化一个类，那么只会有一个线程去执行这个类的clinit方法，其他线程都需要阻塞等待，直到活动线程执行clinit方法完毕。如果在一个类的clinit方法中有耗时很长的操作，就可能造成多个进程阻塞。这里虽然其他线程会被阻塞，但如果执行clinit方法的那条线程退出clinit方法后，其他线程唤醒之后不会再次进入clinit方法。同一个类加载器下，一个类型只会初始化一次。

public class DeadLoopClass {
   static{
      /**
       * 如果不加这个id语句，编译器将提示Initializer does not complete normally
       * 并拒绝编译
       */
     if(true){
        System.out.println(Thread.currentThread()+"init DeadLoopClass");
        while (true){

        }
     }
   }

   public static void main(String[] args) {
      Runnable script = new Runnable() {
         @Override
         public void run() {
            System.out.println(Thread.currentThread()+"start");
            DeadLoopClass dlc = new DeadLoopClass();
            System.out.println(Thread.currentThread()+" run over");
         }
      };
      Thread t1 = new Thread(script);
      Thread t2 = new Thread(script);
      t1.start();
      t2.start();
   }
}

运行结果如下，即一条线程在死循环中模拟长时间操作，另外一条线程在堵塞等待。