编译原理--编译过程中的词法分析--简述

在预编译之后生成的纯粹源代码文件从左向右读取源程序的每一个字符形成一个字符流作为编译阶段的输入文件

编译阶段：词法分析:–>从输入流中识别各个单词、确定单词类型、将识别出的单词类型转换为统一的机内表示这个表示被称为词法单元(token)

词法单元token是一个二元组： token<种别码,属性值>
在机器编译的过程中有一张表记录了字符组成的种种可能为了便于理解下文称之为种别码表

种别码表中有五种"规则"
关键字、标识符、常量、运算符、界限符

从字符流中读取每个 “单词” (至于这些单词如何识别个人认为可能与空格有关) 将读取的这个单词与种别码表进行对比将其转换成一个机内表示的token
比如 int var = 10; 将其认为一小段字符流
识别出第一个单词 int 那么这个int 是关键字所以将int 转换成token<int,–>
识别第二个单词 var 这很显然是一个标识符所以将其转换为 token<IND,var> （IDN 是标识符的种别码，var是其字面值用于识别）
识别出第三个单词 = 这是一个运算符将其装换成token<NE,–>
识别出第四个单词 10 这是一个常量。。。。。。。

言而总之种别码表其中对应了字符流中的种种可能
其中
关键字是编程语言定义好的所以每一个关键字都对应着一个种别码，而其属性值为 – 表示空所谓一词一码
关键之： if else then begin

标识符由于编译前无法枚举出所有的字符组成可能所以所有的标识符都是一个种别码为了区分不同的标识符采用第二个属性值用来区分属性值用于保存当前单词字面上的值所谓多词一码
标识符数组名函数名过程名

常量是同一类型的不同常量所谓一型一码同样为了区分属性值保存的是其当前的字面值
常量整型浮点型

运算符逻辑运算符或则算数运算符都要算进去一词一码或者一型一码
运算符 ±*。。。 > < = ~ !..

界限符： { } （）【】之类的

这些token能唯一标记一个字符或者单词从而可以被计算机编译器识别

总之这些种别码的存在就是为了进行词法分析将源代码程序转换成一个token的序列作为下一个阶段的输入

(注意：我这里的阶段指的是编译过程中某个阶段比如下一个阶段语法分析但是我上一篇说的阶段指的是整个从源代码到目标代码的流程阶段不要搞混淆了)

编译原理--编译过程中的词法分析--简述

猜你喜欢