KMP算法详解--快来康康

自己记下,以免忘记

引入

首先我们来看一个例子,现在有两个字符串A和字符串B,问你在A中是否有B,有几个?为了方便叙述,我们给出例子:
A=”abcaabababaa”
B=”abab”
那么普通的匹配是怎么操作的呢?我们想到的肯定是暴利匹配法即一位一位地比,
暴力检索图

暴力匹配算法

下面请看暴利匹配的核心代码:

public static int ViolentMatch(char[] s, char[] p){
   int sLen = s.length;
   int pLen = p.length;
   int i = 0;
   int j = 0; 
   while (i < sLen && j < pLen) {
    if (s[i] == p[j])  {   
    //①如果当前字符匹配成功(即S[i] == P[j]),则i++,j++       
     i++;   
     j++;
      }  else  {   
      //②如果失配(即S[i]! = P[j]),令i = i - (j - 1),j = 0       
       i = i - j + 1;  
       j = 0;
     }
   }
   //匹配成功,返回模式串p在文本串s中的位置,否则返回-1 
   if (j == pLen)  
   return i - j;
   else
    return -1;
 }

推导后发现,只要一不匹配就要回溯从前面重新匹配,暴力搜索算法由文本串中从0到n-m所有位置的比较组成,无论是否从模式串的起始位置开始,每次匹配过后,模式串向右移动一位。匹配的时间复杂度为O(mn)

KMP算法

为了提高检索的速度,我们来看看KMP算法
在此,我们先使用next数组:后面再看看next数组实现:

KMP算法
首先:我们先说一下本文的说明和约定

1.文中,所有的字符串从0开始编号
2.文中,next数组,next[i]表示0~i-1符串的最长相同前缀后缀的长度.

前缀:指的是字符串的子串中从原串最前面开始的子串,如abcdef的前缀有:a,ab,abc,abcd,abcde
后缀:指的是字符串的子串中在原串结尾处结尾的子串,如abcdef的后缀有:f,ef,def,cdef,bcdef

则可以通过上面得知next数组
根据上面两张图,我们来模拟一下next数组与字符串的匹配情况:
在这里插入图片描述
此时我们发现,A的第5位和B的第5位不匹配(注意从0开始编号),此时i=5,j=5,那么我们看next[5]=2;
在这里插入图片描述
我们又发现,A串的第13位和B串的第10位不匹配,此时i=13,j=10,那么我们看next[10]=4;
在这里插入图片描述
这时我们发现A串的第13位和B串的第4位依然不匹配,此时i=13,j=4,那么我们看next[4]=1;
在这里插入图片描述
但此时B串的第1位与A串的第13位依然不匹配,此时,i=13,j=1,所以我们看一看next[1]=0;
在这里插入图片描述
此时KMP算法来匹配完成了
到这时我们最为重要的还是如何算出next数组的各个值

求解next数组

public static void getNext(char[] p, int[] next){ 
  int pLen = p.length;
  //next[0]和ext[1] 均等于0,跳过
  int i = 2; 
  int j = 0; 
  while (i < pLen) {
//   //p[i]前缀,p[j]表示后缀  
   if (p[i-1] == p[j]){ 
    next[i++] = ++j;
   } else {
    if (j == 0) {
     next[i++] = j;
    }
    j = next[j];  
  }

简化后为:此时将next[0] = -1作为查询结界

 public static void GetNext(char[] p, int[] next){ 
  int pLen = p.length;
  next[0] = -1; 
  int k = -1; 
  int j = 0; 
  while (j < pLen - 1) {
   //p[k]表示前缀,p[j]表示后缀  
   if (k == -1 || p[j] == p[k]){   
    ++k;   
    ++j;   
    next[j] = k;  
   } else {   
    k = next[k];  
   }
  }
 }

至此给出完整的kmp算法代码

第一种

public static void getNext(char[] p, int[] next){ 
   int pLen = p.length;
	  int i = 2; 
	  int j = 0; 
	  while (i < pLen) {
	//   //p[k]表示前缀,p[j]表示后缀  
	   if (p[i-1] == p[j]){ 
	    next[i++] = ++j;
	   } else {
	    if (j == 0) {
	     next[i++] = j;
	    }
	    j = next[j];  
	   }
	  }
	   
public static int KmpSearch(char[] s, char[] p, int[] next){
    int i = 0;
	  int j = 0;
	  int sLen = s.length;
	  int pLen = p.length;
	  while (sLen-i >= pLen-j) {
	   if (j == pLen) {
	    return i - j;
	   }
	   if (s[i] == p[j]) {
	    ++i;
	    ++j;
	    continue;
	   } 
	   if (j == 0){
	    ++i;
	    continue;
	   }
	   j = next[j];
	  }
	   return -1;
	   }
第二种

public static void getNext(char[] p, int[] next){ 
  int pLen = p.length;
  next[0] = -1; 
  int k = -1; 
  int j = 0; 
  while (j < pLen - 1) {
   //p[k]表示前缀,p[j]表示后缀  
   if (k == -1 || p[j] == p[k]){   
    ++k;   
    ++j;   
    next[j] = k;  
   } else {   
    k = next[k];  
   }
  }
 }
 
 public static int KmpSearch(char[] s, char[] p, int[] next){
  int i = 0;
  int j = 0;
  int sLen = s.length;
  int pLen = p.length;
  while (i < sLen && j < pLen) {
   //①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++
   if (j == -1 || s[i] == p[j]) {
    i++;
    j++;
   } else {
   //②如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]
   //next[j]即为j所对应的next值 
    j = next[j];
   }
  }
  if (j == pLen)
   return i - j;
  else
   return -1;
 }
 

复杂度O(m+n)

猜你喜欢

转载自blog.csdn.net/baidu_41922630/article/details/105073265