kmp算法是一种改进的字符串匹配方法,该算法的核心是利用字符串匹配失败后的可用信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。
∗ * ∗什么是“字符串匹配失败”?
首先,我们先要了解kmp主要的匹配机制——kmp的匹配机制是在BF算法上进行优化的,那么,什么是BF算法呢?
BF(brute force)算法就是字符串的暴力匹配法:对主串的每个字符进行一一匹配,匹配的方式也是逐字符进行检查
public boolean BF(String query,String target){
for(int i=0;i<query.length();i++){
int start=i;
int ptr=0;
while (ptr < target.length()) {
if(query.charAt(start+ptr)!=target.charAt(ptr))
break;
ptr++;
}
if(ptr==target.length())
return true;
}
return false;
}
字符串匹配失败就是指对主串的某个字符匹配失败,比如主串是“abcdcdgadk”,模式串是“cdcdk”,在对主串的第一个字符c进行匹配时:
∗ * ∗什么是匹配失败后的“可用信息”?
可用信息指的是模式串的前缀与后缀的公共可匹配字符串的长度(对于模式串“cdc”公共可匹配前缀后缀长度是1,“cdcd”是2)
∗ * ∗那么如何利用匹配失败后的可用信息实现减少匹配次数的目的呢?
同样以主串“abcdcdgadk”,模式串“cdcdk”在主串第一个“c”处的匹配举例,当匹配失败后,进行下一轮匹配时,必须将模式串子串的公共可匹配前缀与后缀重合,才可能得到正确的匹配。
总而言之,BF算法在模式串中有多个字符和主串中的若干个连续字符比较都相等,但最后一个字符比较不相等时,主串的比较位置需要回退,回退到比较起点的下一个位置 。KMP算法在上述情况下,主串位置不需要回退,从而可以大大提高效率。
在设计kmp算法解决问题时,我们应该如何实现kmp的算法操作呢,我们需要提前维护一个int next[i]数组,用于存储模式字符串中第i个字符之前子字符串的公共前缀后缀可匹配字符串的长度。
例:对于模式串“cdcdk”
next[0]=0, next[1]=0, next[2]=1, next[3]=2, next[4]=0
在处理next[] 数组时,我们可以采用动态规划算法:
//target是模式字符串(String target)
int[] next=new int[target.length()];
for(int i=1;i<target.length();i++){
if(target.charAt(i)!=target.charAt(next[i-1]))
next[i]=target.charAt(i)==target.charAt(0)?1:0;
else
next[i]=next[i-1]+1;
}
KMP算法完整代码:
public boolean kmp(String query,String target){
int longLen=query.length();
int shortLen=target.length();
//处理next数组,记录模式串所有字串的公共前后可匹配字符串长度
int[] next=new int[shortLen];
for(int i=1;i<shortLen;i++){
if(target.charAt(i)!=target.charAt(next[i-1]))
next[i]=target.charAt(i)==target.charAt(0)?1:0;
else
next[i]=next[i-1]+1;
}
//match是当前模式字符串在主串中被匹配到的字符的index
int match=0;
for(int i=0;i<longLen;i++){
if(query.charAt(i)==target.charAt(match))
match++;
else{
/*
*如果match==0时,依然无法匹配,
*则无需重新匹配主串当前字符,自动前移,
*否则会出现越界问题以及死循环问题
*/
if(match!=0) {
/*
* 依据已被成功匹配的模式字串的公共前后缀可匹配字符串的长度,
* 减少无用的匹配(index在next[match-1]之前的字符已经
* 可以成功匹配了)
*/
match = next[match - 1];
//i--是为了主串的当前字符重新匹配
i--;
}
}
/*
*如果match的值超过了模式字符串的最大index,
*则说明模式串被匹配完了,返回true
*/
if(match==shortLen)
return true;
}
return false;
}