在LL文法中我们通过置换进行扩展 最终在底部得到了所有的terminals 但是在LR文法中 文法分析是一种自下向上的 我们是先从所有的termnials入手 通过置换进行缩减 并最终得到了起始根的位置
S → aABe
A → Abc | b
B → d
string:abbcde
首先 读取第一个字符a 然后看语法中有没有可以置换的 发现 没有 所以选择跳过
然后 读取第二个字符b 这时候我们有了ab 这时候有什么可以置换且不违背follow集规则吗?我们发现可以把b替换成A 形成aA 没问题a的follow有A
当前string:aAbcde
然后 继续向后读取第三个字符b 这时我们就有了aAb 有什么可以置换且不违背follow集吗?我们乍一看貌似可以把b替换成A形成aAA 但是注意A的follow可以是A吗?显然不可以!所以选择跳过并继续读取下一个字符c
当前string:aAbcde
此时我们就有了aAbc 有什么可以置换且不违背follow集吗?不难发现Abc可以置换成A形成aA 这个也不会违背follow集
当前string:aAde
此时在读取下一个字符后有了aAd 有什么可以置换且不违背follow集吗?发现d可以置换成B且不违背follow集 所以形成了aAB
当前string:aABe
此时在读取下一个字符便获取到aABe 有什么可以置换且不违背follow集吗?发现S刚好完美匹配
最后便形成了S
当前string:S
经典表达式语法例子:
Classic Expression Grammar :
0.Goal → Expr
1.Expr → Expr + Term2.| Expr - Term
3.| Term
4.Term → Term * Factor
5.| Term / Factor
6.| Factor
7.Factor → id
8.| num
9.| ( Expr )
string : x + 5 * y id + num * id
stack(栈读取的内容) | input(输入) | action(行为) |
empty | id+num*id | shift |
id | +num*id | reduce 8 |
Factor | +num*id | reduce 6 |
Term | +num*id | reduce 3 |
Expr | +num*id | shift |
Expr+ | num*id | shift |
Expr+num | *id | reduce 7 |
Expr+Factor | *id | reduce 6 |
Expr+Term | *id | shift |
Expr+Term* | id | shift |
Expr+Term*id | eof | reduce 8 |
Expr+Term*Factor | eof | reduce 4 |
Expr+Term | eof | reduce 1 |
Expr | reduce 0 | |
Goal |
这里有几点要注意的是 在第一个例子中 经过置换后 就没有出现二次置换 都是继续往下shift
但其实在这个例子中就能发现 一旦shift读取一个字符到栈中 只要有合理的置换方式 就需要一直置换下去 直到没有任何一个可以置换且遵循follow的时候 才会继续去shift读取下一个字符到栈中
第二点需要注意的是在表格倒数第三行第四行
Expr+Term*Factor | eof | reduce 4 |
Expr+Term | eof | reduce 1 |
这里其实是无法明确置换的 比如Expr+Term*Factor可以reduce 4 但同时也可以reduce 6形成Expr+Term*Term 也是合规的 这就说明虽然我们通过表达式逻辑可以很容易的做出选择 但是系统没有一个明确的算法去确定合适的选择
再来看一个简单例子:
0.Goal → A
1.A → Aa
2.| a
生成closure:
这时我们加入一个placeholder“占位符”符号 • 和lookahead eof
level 0 | Goal → • A,eof |
level 1 | A → • Aa,eof | • a,eof |
level 2 | A → • Aa,a A → •a,a |
level 0级中 • 代表当前起始位置 eof代表结束符号 因为Goal就代表了这个string的整体
level 1级中 把A置换成Aa 和 a后的体现 发现a后面可以是eof
level 2级中 进行再次嵌套置换的话 比如Aaa 发现a后面可以跟a 所以用,a来体现
a | eof | |
s0 | s2 | |
s1 | s3 | Accept |
s2 | r2 | r2 |
s3 | r1 | r1 |
A | |
s0 | s1 |
s1 | \ |
s2 | \ |
s3 | \ |
Parse aa: