KMPアルゴリズム(Java実装)

kmpアルゴリズムは改善された文字列照合方法です。アルゴリズムのコアは文字列の一致が失敗した後入手可能な情報、パターン文字列とメイン文字列の間の一致時間を減らして、高速一致の目的を達成するようにしてください。特定の実装は、パターン文字列のローカルマッチング情報を含むnext()関数によるものです。


∗ * 「文字列の照合に失敗しました」とは何ですか?
まず、最初にkmp-kmpのマッチングメカニズムの主要なマッチングメカニズムがBFアルゴリズムで最適化されていることを理解する必要があります。次に、BFアルゴリズムとは何ですか。
BF(ブルートフォース)アルゴリズムは、文字列のブルートフォースマッチング方法です。メインストリングの各文字が1つずつマッチングされ、マッチング方法も文字ごとにチェックされます

 public boolean BF(String query,String target){
    
    
        for(int i=0;i<query.length();i++){
    
    
            int start=i;
            int ptr=0;
            while (ptr < target.length()) {
    
    
                if(query.charAt(start+ptr)!=target.charAt(ptr))
                    break;
                ptr++;
            }
            if(ptr==target.length())
                return true;
        }
        return false;
   }

文字列の一致の失敗とは、メイン文字列の文字との一致の失敗を指します。たとえば、メイン文字列は「abcdcdgadk」で、パターン文字列は「cdcdk」です。メイン文字列の最初の文字cと一致する場合:
ここに画像の説明を挿入




∗ * 試合に失敗した後の「入手可能な情報」とは何ですか?
利用可能な情報は、パターン文字列のプレフィックスとサフィックスの共通の一致可能な文字列の長さを参照します(パターン文字列「cdc」の場合、共通の一致可能なプレフィックスのサフィックスの長さは1、「cdcd」は2です)


∗ * では、一致数を減らすという目的を達成できなかった後、利用可能な情報をどのように使用するのでしょうか。
同様に、メイン文字列「abcdcdgadk」とメイン文字列の最初の「c」にあるパターン文字列「cdcdk」を例に取ります。マッチングが失敗した場合、次のマッチングが実行されるとき、パターン文字列サブ文字列の共通の一致可能なプレフィックスは、サフィックスが重複する場合にのみ、正しい一致を取得できます。
ここに画像の説明を挿入

全体として、BFアルゴリズムでは、パターン文字列に複数の文字があり、メイン文字列のいくつかの連続する文字はすべて同じですが、最後の文字が等しくない場合、メイン文字列の比較位置を比較開始点の一番下までロールバックする必要があります。場所。上記の状況では、KMPアルゴリズムはメインストリングの位置をロールバックする必要がないため、効率が大幅に向上します。

問題を解決するためにkmpアルゴリズムを設計する場合、kmpアルゴリズム操作をどのように実装する必要がありますか?パターン文字列のi番目の文字の前に部分文字列の共通の接頭辞を格納するために、事前にint next [i]配列を維持する必要があります。一致した文字列の長さ。

例:パターン文字列 "cdcdk"の場合
next [0] = 0、next [1] = 0、next [2] = 1、next [3] = 2、next [4] = 0


next []配列を処理する場合、動的プログラミングアルゴリズムを使用できます。

//target是模式字符串(String target)
 int[] next=new int[target.length()];
        for(int i=1;i<target.length();i++){
    
    
           if(target.charAt(i)!=target.charAt(next[i-1]))
               next[i]=target.charAt(i)==target.charAt(0)?1:0;
           else
               next[i]=next[i-1]+1;
        }

KMPアルゴリズムの完全なコード:

public boolean kmp(String query,String target){
    
    
        int longLen=query.length();
        int shortLen=target.length();
        //处理next数组,记录模式串所有字串的公共前后可匹配字符串长度
        int[] next=new int[shortLen];
        for(int i=1;i<shortLen;i++){
    
    
           if(target.charAt(i)!=target.charAt(next[i-1]))
                next[i]=target.charAt(i)==target.charAt(0)?1:0;
           else
               next[i]=next[i-1]+1;

        }
        //match是当前模式字符串在主串中被匹配到的字符的index
        int match=0;
        for(int i=0;i<longLen;i++){
    
    
            if(query.charAt(i)==target.charAt(match))
                match++;
            else{
    
    
                /*
                 *如果match==0时,依然无法匹配,
                 *则无需重新匹配主串当前字符,自动前移,
                 *否则会出现越界问题以及死循环问题
                 */
                if(match!=0) {
    
    
                    /*
                    * 依据已被成功匹配的模式字串的公共前后缀可匹配字符串的长度,
                    * 减少无用的匹配(index在next[match-1]之前的字符已经
                    * 可以成功匹配了)
                    */
                    match = next[match - 1];
                    //i--是为了主串的当前字符重新匹配
                    i--;
                }
            }
            /*
             *如果match的值超过了模式字符串的最大index,
             *则说明模式串被匹配完了,返回true
             */
            if(match==shortLen)
                return true;
     }
        return false;

   }

おすすめ

転載: blog.csdn.net/CY2333333/article/details/108203076