AC自动机概述

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lvmaooi/article/details/82693402

首先我们需要了解trie树。
我们把每个模式串逐个插入trie树。
比如说把a,aba,ac,cb四个串插入trie树,得到的是这样的:
这里写图片描述

对于trie树来说,我们从根开始到每一个结束节点(红色节点)的路径都代表一个字符串。为了减少状态我们把有相同前缀的字符串的前缀合并。插入时标出结束节点。

fail链:

在AC自动机中最重要的就是fail链了。fail链中文就是失配链。AC自动机不像后缀自动机一样,AC自动机构建出来就是用来匹配的。当我们用文本串进行匹配的时候,到达一个状态表示当前位置匹配的最长串。如果下一步没有转移了我们就要缩短当前的匹配长度再寻找转移。fail链应该指向在AC自动机出现的它的最长后缀。

构造:

当我们构造出一个trie树之后怎么构造一个AC自动机?其实很好理解,假如我知道父亲的fail链指向,只需要沿着父亲的fail链向上找有没有一个和自己一样的转移。如果有就连fail。因为可以遍历父亲串的在AC自动机里出现所有后缀串。

现在我们构造一下刚刚trie树的Ac自动机:
这里写图片描述

稍微讲一下算法流程:

bfs构图,可以做到先构造父亲载构造儿子,到达一个节点遍历所有儿子,每遍历一个儿子顺着fail链向上找有无转移即可。
注意root的儿子事先指向root。

一些小trick:

注意匹配到一个节点时它沿fail链向上的所有节点都会被匹配,所以可以在匹配之前先下推结束状态保证复杂度。

AC自动机只能离线构造,不支持在线插入,因为这样会打乱AC自动机的fail。但是可以利用分块的思想使复杂度降成 n n 。具体做法就是开AB两个后缀自动机,每次插入B自动机,当B中有 n 个串之后把B并入A并清空B。查询就在AB里均匹配一次,把答案加起来即可。

猜你喜欢

转载自blog.csdn.net/lvmaooi/article/details/82693402