KMP算法(java实现)

kmp算法是一种改进的字符串匹配方法,该算法的核心是利用字符串匹配失败后可用信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。


∗ * 什么是“字符串匹配失败”?
首先,我们先要了解kmp主要的匹配机制——kmp的匹配机制是在BF算法上进行优化的,那么,什么是BF算法呢?
BF(brute force)算法就是字符串的暴力匹配法:对主串的每个字符进行一一匹配,匹配的方式也是逐字符进行检查

 public boolean BF(String query,String target){
    
    
        for(int i=0;i<query.length();i++){
    
    
            int start=i;
            int ptr=0;
            while (ptr < target.length()) {
    
    
                if(query.charAt(start+ptr)!=target.charAt(ptr))
                    break;
                ptr++;
            }
            if(ptr==target.length())
                return true;
        }
        return false;
   }

字符串匹配失败就是指对主串的某个字符匹配失败,比如主串是“abcdcdgadk”,模式串是“cdcdk”,在对主串的第一个字符c进行匹配时:
在这里插入图片描述




∗ * 什么是匹配失败后的“可用信息”?
可用信息指的是模式串的前缀与后缀的公共可匹配字符串的长度(对于模式串“cdc”公共可匹配前缀后缀长度是1,“cdcd”是2)


∗ * 那么如何利用匹配失败后的可用信息实现减少匹配次数的目的呢?
同样以主串“abcdcdgadk”,模式串“cdcdk”在主串第一个“c”处的匹配举例,当匹配失败后,进行下一轮匹配时,必须将模式串子串的公共可匹配前缀与后缀重合,才可能得到正确的匹配。
在这里插入图片描述

总而言之,BF算法在模式串中有多个字符和主串中的若干个连续字符比较都相等,但最后一个字符比较不相等时,主串的比较位置需要回退,回退到比较起点的下一个位置 。KMP算法在上述情况下,主串位置不需要回退,从而可以大大提高效率。

在设计kmp算法解决问题时,我们应该如何实现kmp的算法操作呢,我们需要提前维护一个int next[i]数组,用于存储模式字符串中第i个字符之前子字符串的公共前缀后缀可匹配字符串的长度。

例:对于模式串“cdcdk”
next[0]=0, next[1]=0, next[2]=1, next[3]=2, next[4]=0


在处理next[] 数组时,我们可以采用动态规划算法:

//target是模式字符串(String target)
 int[] next=new int[target.length()];
        for(int i=1;i<target.length();i++){
    
    
           if(target.charAt(i)!=target.charAt(next[i-1]))
               next[i]=target.charAt(i)==target.charAt(0)?1:0;
           else
               next[i]=next[i-1]+1;
        }

KMP算法完整代码:

public boolean kmp(String query,String target){
    
    
        int longLen=query.length();
        int shortLen=target.length();
        //处理next数组,记录模式串所有字串的公共前后可匹配字符串长度
        int[] next=new int[shortLen];
        for(int i=1;i<shortLen;i++){
    
    
           if(target.charAt(i)!=target.charAt(next[i-1]))
                next[i]=target.charAt(i)==target.charAt(0)?1:0;
           else
               next[i]=next[i-1]+1;

        }
        //match是当前模式字符串在主串中被匹配到的字符的index
        int match=0;
        for(int i=0;i<longLen;i++){
    
    
            if(query.charAt(i)==target.charAt(match))
                match++;
            else{
    
    
                /*
                 *如果match==0时,依然无法匹配,
                 *则无需重新匹配主串当前字符,自动前移,
                 *否则会出现越界问题以及死循环问题
                 */
                if(match!=0) {
    
    
                    /*
                    * 依据已被成功匹配的模式字串的公共前后缀可匹配字符串的长度,
                    * 减少无用的匹配(index在next[match-1]之前的字符已经
                    * 可以成功匹配了)
                    */
                    match = next[match - 1];
                    //i--是为了主串的当前字符重新匹配
                    i--;
                }
            }
            /*
             *如果match的值超过了模式字符串的最大index,
             *则说明模式串被匹配完了,返回true
             */
            if(match==shortLen)
                return true;
     }
        return false;

   }

猜你喜欢

转载自blog.csdn.net/CY2333333/article/details/108203076