字符串匹配算法之KMP总结

字符串匹配有很多方法，比如暴力，哈希等等，还有一种广为人知的算法 $---KMP$ 。

一.问题引入

需要一种算法，能够在线性的时间内判断 $a[1...N]$ 是否是字符串 $b[1...M]$ 的字串，并要求返回字符串a在b中匹配的所有位置

思考暴力。

枚举i从 $1->m$ 表示 $b$ 匹配的左端点，然后 $O(n)$ 的判断 $b[i...i+n-1]$ 是否与 $a[1...n]$ 匹配。

我们很容易发现这样的方法在极端数据下跑的很慢，比如：

aaaaaaaaaaaaaaaaaab
aaaaab

每次要匹配到a最后一个位置才发现不相等。时间复杂度 $O(nm)$

当然此问题亦可以通过哈希解决，笔者在此不多赘述

接下来我们就讲神奇的 $KMP$ 算法

二.算法概述

$KMP$ 算法，又称模式匹配算法，是一种能够高效，准确的处理字符串匹配的算法

KMP算法基本分为两部：

1.首先是对 $A$ 数组（模式串）进行自我匹配。

建立一个 $next$ 数组， $next[i]$ 表示以 $i$ 结尾的非前缀字串与A的前缀能够匹配的最大长度。

其中“以 $i$ 结尾的非前缀字串”通俗的说就是非前缀的后缀，比如aab的非前缀的后缀就是 $\{b\},\{ab\}$

$next[i]=\max\{j\}, j<i$ 且 $A[i-j+1...i]=A[1...j]$

举个例子：

设 $A$ 串为 $"abababaac"$ ，A数组的next[7]应该为5，推导过程如下：

发现有三个可行的j满足 $A[i-j+1...i]=A[1...j]$ ：

$A[7...7]=\{a\}$ 与 $A[1...1]=\{a\}$ 匹配；
$A[5...7]=\{aba\}$ 与 $A[1...3]=\{a\}$ 匹配；
$A[3...7]=\{ababa\}$ 与 $A[1..5]=\{ababa\}$ 匹配；

其中 $j$ 最大的是第 $3$ 个为 $5$

如何更快的计算 $next$ 数组？

不妨设 $next[1...6]$ 都已求出，通过上述过程知 $next[6]=4$

$∵A[7]=A[5],∴next[7]=next[6]+1=5$

接下来考虑next[8]

发现 $A[8]=\{a\}$ 而 $A[6]=\{b\}$ ，所以 $next[8]$ 不等于 $next[7]+1$

那么只好将匹配长度 $j$ 缩短

根据上面的结论我们知道 $j$ 好可以等于 $3$ 和 $5$ ，尝试延伸到 $A[8]$

但是我们发现 $A[8]$ 与 $A[4]$ 和 $A[2]$ 都不匹配，于是只能从头匹配， $next[8]=next[1]+1=1$

那我们怎么让程序知道当我们发现 $A[8]!=A[6]$ 时该去匹配 $A[4]$ 和 $A[2]$ 呢？

$next[7]=5$ 说明从 $7$ 往前 $5$ 个字符是与 $A[1...5]$ 匹配的。那我们下一步要寻找的也就是 $5$ 之前的 $j$ 个字符与 $A[1...j]$ 相匹配，那么 $7$ 往前 $j$ 个字符是与 $A[1...j]$ 匹配的。这个 $j$ 的答案就是 $next[5]$ ,其实就是 $next[next[7]]$

于是我们就可以通过这种方式快速的找到下一步 $j$ 要跳到哪里去。

之后演示一下这一段预处理 $next$ 的过程

next[1] = 0 ; // next[1]=0很明显
for (int i = 2, j = 0; i <= n; i++) { // 求next[i]时next[1...i-1]肯定已经求得
	while (j && a[i] != a[j + 1]) j = next[j] ; // 不断尝试匹配长度为j是否可行，如果失败，则枚举next[j]是否可行； 如果都不行，则 next[i]=0
	if (a[i] == a[j + 1]) j++ ; // 如果能够扩展成功，则匹配的长度j加1。
	next[i] = j ; // next[i]即为j
}

2.对字符串A与B进行匹配。

求出数组 $f$ ， $f[i]$ 表示 $B$ 中以 $i$ 为结尾的子串与 $A$ 的前缀能够匹配的最大长度。

大家有没有发现这个定义与 $next$ 数组非常相似？对，他们连求法都基本一致！

给一下 $f$ 的求解代码：

for (int i  = 1, j = 0; i <= m; i++) {
	while (j && (j == n || b[i] != a[j + 1])) j = next[j] ;
	if (b[i] == a[j + 1]) j++ ;
	f[i] = j ;
	if (f[i] == n) ans++ ; // 能够匹配的长度为n，表示匹配到一次，答案次数++
}