java编译器源码分析之词法分析器

版权声明:转载注明出处 https://blog.csdn.net/nobody_1/article/details/83539924
java编译器是什么?

编译简单理解就是一种高级语言到另一种低级语言的翻译过程;而执行这个过程的主体称为编译器。寻常所说的编译器是指把汇编语言转变成机器语言,也称目标代码,即CPU指令集。汇编语言是一种比机器语言对人友好的语言,但不同机器硬件构造不一样,驱动机器的软件也不一样,因此汇编语言需要针对不同的机器编写不同的代码,显得有点麻烦。为解决这个问题,聪明的工程师想到一种方法,即采用虚拟机的形式屏蔽底层硬件和软件平台的不同,也就是说,高级语言的编写不受底层硬件的影响,达到“一次编译,到处运行”的效果。
很明显,“一次编译,到处运行”的功能寄托于虚拟机;java语言是基于java虚拟机(JVM)而实现的一种高级语言,它需要通过java编译器编译成JVM识别的语言,最后由JVM实现到目标语言的转换。
javac

javac的作用?

javac是把java高级语言转变成JVM识别的一种二进制代码;具体体现就是.java文件到.class文件的转变;JVM识别的.class文件存储的是字节码;而转变的正确性则是由JVM的语言规范来保证,所以java编译器的作用可以理解为把java语言规范转变成JVM语言规范。

javac的主要过程?

从java语言到字节码的转变要经过四个过程:①java语言到Token流的过程,称为词法分析;②Token流到抽象语法树的过程,称为语法分析;③解析复杂的树节点,如语法糖的解析等,称为语义分析;④抽象语法树到字节码的过程,称为代码生成。
javac过程
至于为什么要分为这四个步骤?
抽象语法树是关键。抽象语法树可以把一种语言结构重组为另外一种语言结构,这里可以简单理解为java语言规范到JVM语言规范的转变。

这篇博客首先来看一下词法分析的过程。

何为词法分析?

词法分析从字面来理解就是解析java语言中的单词;单纯的从字面来看,java文件由java关键字、标识符(包名、类名、属性名和方法名)以及符号(各类运算符、各类括号)等三部分组成。词法分析的主要目的就是把这些单词和符号转变成Token流。那么什么是Token流呢,后面会讲到。

词法分析的过程?

词法分析在源代码中是和语法分析在一起的,在这里为了更好的理解词法分析的过程,我是从代码的执行角度来分析的。有如下代码:

package com.compile;
public class CifaAnalysis {
	int i = 0;
	public static void main(String[] args) {
		System.out.println("Hello World!");
	}
}

大体过程如下:
①通过com.sun.tools.javac.main.Main类的compile()方法读取.java文件;
②通过com.sun.tools.javac.main.JavaCompiler.readSource(JavaFileObject)方法把文件内容转变成字符流(charSequence);
③通过com.sun.tools.javac.parser.Scanner.nextToken()方法从字符流中获取一个token;

这里有两个问题:
①长串字符流如何形成一个个token?token长啥样?
②形成的token存放在哪里?
针对第一个问题,nextToken()方法说的很清楚,由于方法过长,这里就不黏贴出来,简单的说就是一个一个字符读取字符流,比如”package com.compile”,当读取p-a-c-k-a-g-e-空格,识别到空格时则会把空格前的字符流组成一个token字符串.(Token是一个枚举类,列举了所有的关键字、各类运算符和符号等)。或许你在这里还有一个疑问,如果一个双目运算符两边没有空格如int i=0该如何形成四个token而不是两个?在nextToken方法里面已经对这种特殊操作符(!%&*?±:<=>|~@)进行了特殊的处理。

针对第二个问题,就要说说token是怎么处理的了。
原来Token类里面的name到value的映射是由com.sun.tools.javac.parser.Keywords.Keywords(Context)方法完成的,每一个token都以Name类的对象存储在Token类型的数组内;

key = new Token[maxKey+1];
for (int i = 0; i <= maxKey; i++) key[i] = IDENTIFIER;
for (Token t : Token.values()) {
      if (t.name != null)
          key[tokenName[t.ordinal()].index] = t;
}

maxKey表示Token枚举类的数量;通过第二个for循环把映射关系(name-value)初始化好,name没有映射的value则value为IDENTIFIER;因此当nextToken()方法形成一个token时会定义为name对象,然后根据这个name对象去key数组中查找对应的value,没有找到对应关系的name,其value为IDENTIFIER,所以com/compile等标识符都会被定义为IDENTIFIER;

public Token key(Name name) {
        return (name.index > maxKey) ? IDENTIFIER : key[name.index];
    }

此时,针对Token放在哪里的问题也就很清楚了。

就这样,整个原文件被形成下面这个样子:
源文件编译
可以看出,经常误以为的main和String并不是java关键字,只是作为一种IDENTIFIER。

最后还有一个问题,虽然我们知道package后面跟的是包名,但编译器怎么知道编译器怎么识别包名、类名、变量和方法名的

编译器知道Token.PACKAGE后面跟的是包名,Token.IMPORT后面跟的是导入的类名;Token.CLASS后面是类名等等这些都是事先约定好的,可以认为是java语言的规范。

总结

到此,词法分析的整个过程结束了。可以整理下流程:
->读取.java源文件,并转换为字符流;
->读取字符流,根据规则形成name对象,并映射成Token;
->一个个Token形成Token流;

参考资料

《深入分析javaweb技术内幕》
http://blog.51cto.com/13981400/2178759

猜你喜欢

转载自blog.csdn.net/nobody_1/article/details/83539924