AC自动机的优化及经典例题

$AC$ 自动机是一种用于解决多模式串匹配问题的工具。

模板题：给定 $n$ 个模式串和 $1$ 个母串（由小写字母组成），将母串中包含模式串的部分变为 $"*"$ 号。

判断一个串是不是另一个串的子串，我们首先会想到 $KMP$ 算法，但 $KMP$ 算法需要逐个处理每一个模式串， $n$ 太大时显然会超时。这时， $AC$ 自动机便派上了用场，它的核心也是熟悉的 $next$ 数组，我们可以把它看做 $trie$ 树上的 $KMP$ 。首先，我们把所有模式串加入一棵 $trie$ 树中（注意，我们要把 $trie$ 树的根结点设为 $1$ ，原因下面会说），接着，我们通过 $bfs$ 求出 $trie$ 树上每一个结点的 $next$ 值（ $next$ 的含义和 $KMP$ 中没有实质的差别），代码如下。

q[++tail]=1;
for(int i=1;i<=26;i++) son[0][i]=1;
while(tail>head)
{
	tmp=q[++head];
	for(int i=1;i<=26;i++)
		if(son[tmp][i])
		{
			q[++tail]=son[tmp][i],now=next[tmp];
			while(!son[now][i]) now=next[now];
			next[son[tmp][i]]=son[now][i];
		}
}

以上代码的前两行看起来有些奇怪，第一行把 $trie$ 树的根结点 $1$ 加入队列，第二行又设置了一个 $0$ 号结点，并把它的所有子结点都设为 $1$ 。其实，这样做是为了避免匹配中的一些特殊情况：假设遇到一个 $trie$ 树上无法找到的字符 $i$ ，对于任何一个 $now$ ，都满足 $son[now][i]=0$ ，当 $now=0$ 时， $next[now]=0$ ，程序就会无限循环。为了避免这样的问题，我们把 $trie$ 树的根结点设为 $1$ ，当 $now=0$ 时，无论 $i$ 取何值，都满足 $son[0][i]=1$ ，从而退出循环。建出 $next$ 数组后，我们开始匹配母串，即让母串在这棵 $trie$ 树上顺着 $next$ 数组跑，记一个 $tmp$ 表示当前到达的结点，但还有一个细节要注意：统计答案时，我们不应只统计 $tmp$ 所在结点的答案，还应统计每一个 $tmp$ 所在结点顺着 $next$ 数组能到达的结点（只要对于每一个 $tmp$ ，再开一个 $now=tmp$ ，顺着 $next$ 数组跑一跑就行了），否则会出现如下情况：

hack数据：

输入： $2$

$gui$

$u$

$guigu$

输出： $***gu$ （漏掉了 $u$ ）

为什么会出现这样的情况呢？有些模式串可能是其他模式串的子串，所以会被遗漏...代码如下。

gets(s+1),m=strlen(s+1),tmp=1;
for(int i=1;i<=m;i++)
{
	ch=s[i]-96;
	while(!son[tmp][ch]) tmp=next[tmp];
	tmp=son[tmp][ch],now=tmp;
	while(now)
	{
		if(vis[now])
			for(r int j=1;j<=len[now];j++) s[i-j+1]='*';
    //len[now]表示以now结点结尾的模式串的长度,匹配到一个模式串,就要把它在母串中的部分全部变成"*"号
		now=next[now];
	}
}

例题二、BZOJ3940

我做这题时也按照上面记 $now=tmp$ 的方法，结果超时了好几发，后来仔细看看题目，已经保证了一个模式串不可能为其他模式串的子串，因此根本不需要 $now$ 这个变量，只需要直接判断 $vis[tmp]$ 即可。这道题和上一题有一个区别：删掉一个模式串后，两边剩余的母串可能会拼出新的模式串，那应该如何操作呢？我一开始想到开一个 $to$ 数组表示母串中每一个字符的下一个字符，核心代码如下。

if(vis[tmp]) to[i-dep[tmp]]=i+1,i=1;

结果又 $WA$ 又 $TLE$ ... $WA$ 的原因有二。一：每次删除一个模式串，就从头再开始匹配，但 $tmp$ 并没有变为 $1$ 。二：如果删除一个模式串后，两边的母串会拼成一个新的模式串， $to$ 数组指向的位置就会出错，因为 $dep[tmp]$ 没有相应变化。 $TLE$ 的原因也显而易见：每次删除一个模式串，就从头再开始匹配，造成了极大的时间浪费，其实我们只要从被删模式串的前一位继续匹配即可，但是注意，不能直接把 $tmp$ 变为 $1$ ，而要开一个 $loc$ 数组记录匹配到母串的每一位时 $tmp$ 所在的位置。解决了 $TLE$ 的问题，如何解决 $WA$ 的问题呢？其实只要开一个栈就可以了...栈中的元素不能是字符，而是 $i$ ，否则继续 $WA$ ...匹配代码如下。

tmp=1;
for(int i=1;i<=m;i++)
{
	ans[++top]=i,ch=s[i]-96;
	while(!son[tmp][ch]) tmp=next[tmp];
	loc[i]=tmp=son[tmp][ch];
	if(dep[tmp]) top-=dep[tmp],tmp=loc[ans[top]];
}

$AC$ 自动机的重要优化：构建 $trie$ 图。

$AC$ 自动机的复杂度是什么？这是个值得思考的问题， $for$ 循环中的 $while$ 看起来十分碍事，事实上，它也的确能被某些特殊数据卡到 $TLE$ ，有没有什么办法去掉中间的 $while$ 循环呢？构建 $trie$ 图即可。什么是 $trie$ 图？代码如下。

q[++tail]=1;
for(int i=1;i<=26;i++) son[0][i]=1;
while(tail>head)
{
	tmp=q[++head];
	for(r int i=1;i<=26;i++)
		if(!son[tmp][i]) son[tmp][i]=son[next[tmp]][i];
		else
		{
			q[++tail]=son[tmp][i];
			next[son[tmp][i]]=son[next[tmp]][i];
		} 
}

构建 $trie$ 图的代码和构建 $AC$ 自动机有何区别？我们首先会发现代码中多了对不存在子的结点情况的判断，为什么这样是对的？如果匹配时，母串的字符不是当前结点的子结点，就需要通过 $next$ 数组往上跳，跳到一个有这个字符作为子结点的结点。我们发现，往上跳的操作是大量重复的，很多不同的结点跳过同样一段路径，到达同一个终点，却要被重复计算，为什么我们不能利用记忆化的思想，把它的终点记下来呢？于是，我们直接令 $son[tmp][i]=son[next[tmp]][i]$ ，就愉快地解决了这个问题。这种被补成完全 $k$ 叉树（ $k$ 为字符集大小）的 $trie$ 树，就是之前说的 $trie$ 图。因为每一个结点都有子结点，所以 $while$ 循环就根本不会开始。因此，在建好 $trie$ 图之后， $next$ 数组就失去了作用，我们直接让母串在 $trie$ 图上一直走向子结点即可，这样就可以删掉 $while$ 循环了。

AC自动机的优化及经典例题

猜你喜欢