前文

Spark SQL以及Dataset体系在Spark中具有越来越重要的作用，基于RDD的体系正在被弱化，使用Dataset或者SQL编写的代码，甚至可以经过稍微修改之后迁移到Structure Streaming中进行执行。而且语法解析、语义解析和执行在很多地方也会被用到，比如规则引擎的解析和执行就可以基于语句来实现。

闲暇时间阅读了SparkSQL的一些书籍和资料，笔记如下。

正文

1.概述

用户编写的SQL是无法直接被底层计算框架执行的，必须要经过几个转换阶段，转变成框架能够识别的代码或者类对象，在Spark中，一般需要经过以下几个步骤，分为逻辑执行计划部分和物理执行计划部分。

SQL Query，需要经过词法和语法解析，由字符串转换为，树形的抽象语法树，通过遍历抽象语法树生成未解析的逻辑语法树（unresolved logic plan），对应SQL解析后的一种树形结构，本身不包含任务数据信息，需要经过一次遍历之后，转换成成包含解析后的逻辑算子树（Analyzed LogicPlan），本身携带了各种信息，最后经过优化后得到最终的逻辑语法树（Optimized LogicPlan）。

不管解析被划分为几步，在Spark 执行环境中，都要转化成RDD的调用代码，才能被spark core所执行，示意图如下：

2. 抽象语法树生成

一般的从SQL语句语句转换成抽象的树状结构，需要经过词法分析和语法分析两个过程，实现较为繁琐，但是随着编译理论的成熟，开发人员可以借助各种各样的生成器，来实现词法分析和语法解析。

spark中使用的框架为Anylr 4，通过脚本文件进行SQL 关键字和语法的定义，然后通过框架来实现词法分析和语法分析，详情可见Antlr 百科，通过编译解析Antlr的脚本定义文件，我们可以获得如下几个重要的文件：

a.****Lexer 词法解析器

b.****Parser 语法解析器

c. ****BaseVisitor 访问遍历文件

我们需要做的，就是在 ****BaseVisitor 文件中，编写我们的访问处理逻辑，比如：遇到max、min和add关键字的时候，应该如何做。Spark 生成的****BaseVisitor类的全名为：SqlBaseBaseVisitor ，AstBuilder 继承自SqlBaseBaseVisitor，实现了遍历抽象语法树，生成逻辑执行计划的逻辑，SparkSqlAstBuilder则添加了一些DDL的操作，具体继承关系如下：

举例：

sql 语句：select name from student where age >18;

生成抽象语法树：

3.Unresolved Logic Plan 逻辑执行计划生成

当我们获得上一节得到的抽象语法树之后，就可以使用SparkSqlAstBuilder(继承自SqlBasebaseVisitor 访问者模式)进行遍历了，调用的方法为visitSingleStatement方法，该方法的代码如下，因为singleStatement为根节点，无任何逻辑代码，所以直接递归遍历子节点即可：

直到遍历到关键Context节点的时候，比如QuerySpecificationContext的时候，需要按照顺序遍历三个分支，生成逻辑执行计划，其访问方法为visitQuerySpecification，源码如下：

from其实是返回一个relation，代表from的表信息，withQuerySpecification会携带relation表信息，继续向下进行遍历解析，解析顺序如下所示：

（1）解析from分支，对应val from = —— 段代码，创建UnresollvedRelation

（2）withQuerySpecification()方法的调用，解析where中的过滤条件expresstion,创建Filter 逻辑执行计划

(3) 解析select * 部分，对最后的输出，进行列的裁剪，创建Project 逻辑执行计划

(4) 构建完整化逻辑执行计划

最后解析完毕的逻辑执行计划可视化如下：

4. Analyzed Logical Plan 逻辑执行计划生成

该过程的执行，实际上是从unresolved logic plan到analyzed logical plan的转化过程，通过在遍历的过程中，应用各种rule对其进行转化，驱动应用rules的类为RuleExecutor，其包含了一组Seq[Batch]，每一个Batch中包含了一组Rule和strstegy，一个是转换规则，一个是规则应用次数，结构如下：