BM(ボイヤー - ムーア)文字列照合アルゴリズムの詳細な要約(A C ++実装コード)

参考文献:王鄭ギーク時間[。] https://time.geekbang.org/column/article/71525
テキスト画像はオタクの時間ショットからです。

基本的なアルゴリズムのBMのアイデアはパターンマッチングを行う処理がある、メインの文字列と文字列のモードが一致しないとき、確かに戻って、さらにいくつかのスライドよりもパターン文字列に一致するいくつかの例をスキップすることができません。

あなたは2つの原則、すなわち、より少数の多くをスライドさせることができるならばBMアルゴリズムを見つけるために悪い文字ルール良いサフィックスルール

悪い文字規則:
私たちは、文字が一致することはできません、私たちはこの文字が悪い文字(文字列の主人公)と呼ばれている一致しないことを見つけたとき、パターンマッチング文字列の末尾から逆方向に前進します。このとき、悪い文字場合は、直接、後方にmビットをスライドさせ、パターン文字列のSIにおける不正な文字の記録位置は、その後、パターン文字列内のルック不正な文字を取るモードが文字列に存在しない場合には、パターン文字列をすることができパターン文字列が存在している場合、その位置は、XIが記録され、その後、パターン文字列は、下位ビットSI-XI、(前進、SI> XI、減算を確保する場合ではありません)に移動されます。悪いキャラクターがよりパターン文字列中に何度も表示される場合は、時間内に我々の計算xiが、最も後方を選択することがあまりにも文字列のスリップモードをさせないように、状況はビーイングはスキップ試合につながっている可能性があります。

グッドサフィックスルール:
私たちは、文字列のパターンマッチングを逆転、jビット悪い文字位置の現在の位置を記録する一致に遭遇していません。{U}と表記マッチした文字列ウェルと呼ばれるサフィックス。私たちは、{U}の文字列を持つ別の試合は、我々は、文字列に{U *} {U}はパターン文字列をスライドさせます、{uは*}が見つかった場合、パターン文字列を見つけるためにそれを取ると並ぶ主要な文字列場所。下図のように:

一致する文字列を検索する操作

如果在模式串中找不到另一个等于{u}的子串,我们就直接将模式串滑动到主串中{u}的后面,因为之前的任何一次往后滑动,都没有匹配主串中{u}的情况。但是这种滑动做法有点太过头了,可以看下面的例子,如果直接滑动到好后缀的后面,可能会错过模式串与主串可以匹配的情况。如下图:

当模式串滑动到前缀与主串中{u}的后缀有部分重合的时候,并且重回部分相等的时候,就可能会存在完全匹配的情况。所以针对这种情况我们不仅要看好后缀在模式串中,是否有另一个匹配的字串,我们还要考察好后缀的后缀字串是否存在跟模式串的前缀字串匹配的情况。如下图所示:

最后总结如何确定模式串向后滑动的位数,我们可以分别计算好后缀和坏字符往后滑动的位数,然后取两个数中最大的。

BM算法性能分析
BM算法的内存消耗:整个算法使用了三个额外数组,其中bc数组的大小和字符集大小有关,suffix数组和prefix数组的大小和模式串长度m有关。
如果我们处理字符集很大的模式匹配问题,bc数组对内存消耗会比较多。好后缀规则和坏字符规则是独立的,如果对内存要求苛刻,那么可以只使用好后缀规则。不过效率也会下降一些。
BM 算法的时间复杂度分析很复杂,原文中作者给出了两篇参考文章。我也没看,(捂脸)
A new proof of the linearity of the Boyer-Moore string searching algorithm
Tight bounds on the complexity of the Boyer-Moore string matching algorithm

下面给出了BM算法的C++实现

#include <cstdio>
#include <cstdlib>
#include <iostream>
using namespace std;
const int size = 256;
//将模式串字符使用hash表示
void generateBC(char b[], int m, int bc[]){
//b是模式串, m是模式串的长度, bc是散列表
//bc的下标是字符集的ASCII码,数组值是每个字符在模式串中出现的位置。
for(int i=0; i<size; i++){
bc[i]=-1;
}
for(int i=0; i<m; i++){
int ascii = (int)b[i];
bc[ascii] = i;
}
}
/*
求suffix数组和prefix数组
suffix数组的下标K表示后缀字串的长度,数组值对应存储的是,在模式串中跟好后缀{u}相匹配的子串{u*}
的起始下标值。
prefix数组是布尔型。来记录模式串的后缀字串是否能匹配模式串的前缀子串。

*/
void generateGS(char b[], int m, int suffix[], bool prefix[]){
for(int i=0; i<m;i++){
suffix[i] = -1;
prefix[i] = false;
}
for(int i=0; i<m-1; ++i){
int j = i;
int k =0; //公共后缀字串长度
while(j >=0 && b[j] == b[m-1-k]){
//与b[0, m-1]求公共后缀字串
--j;
++k;
suffix[k] = j+1; //j+1表示公共后缀字串在b[0,i]中的起始下标
}
if(j == -1) prefix[k] = true;//如果公共后缀字串也是模式串的前缀字串

}
}

//j表示坏字符对应的模式串中的字符下标,m是模式串的长度
//计算在好后缀规则下模式串向后移动的个数 
int moveByGS(int j, int m, int suffix[], bool prefix[]){
int k= m-1-j; //好后缀的长度
if(suffix[k] != -1) return j - suffix[k] +1;
for(int r = j+2; r<= m-1; ++r){
if(prefix[m-r] == true){
return r;
}
}
return m;
}

//BM算法
int BM(char a[], int n, char b[], int m){
int suffix[m];
bool prefix[m];

int bc[size];//bc记录模式串中每个字符最后出现的位置

generateBC(b,m,bc); //构建字符串hash表
generateGS(b,m, suffix,prefix); //计算好后缀和好前缀数组

int i=0; //表示主串与模式串对齐的第一个字符
while(i<=n-m){
int j;
for(j=m-1; j>=0; j--){ //模式串从后往前匹配
if(a[i+j]!= b[j]) break; //坏字符对应的模式串下标是j,即i+j 位置是坏字符的位置si        
}
if(j < 0){
return i; //匹配成功,返回主串与模式串第一个匹配的字符的位置
}
//这里x等同于将模式串往后滑动j-bc[(int)a[i+j]]位
//bc[(int)a[i+j]]表示主串中坏字符在模式串中出现的位置xi
int x = i + (j - bc[(int)a[i+j]]); 

int y =0;
if(j < m-1){//如果有好后缀的话,计算在此情况下向后移动的位数y
y = moveByGS(j, m, suffix, prefix);
}
i = i + max(x, y); //i更新位可以后移较多的位置

}
return -1;
}

int main(){
char a[] = "aaaabaaba";
char b[] = "aaaa";
int i = BM(a,9,b,2);
printf("%d\n", i);
return 0;
} 
@。投稿 2020年1月10日夜03時48分  huanghh   読み取り( ... )コメント( ... )  編集  コレクション

おすすめ

転載: www.cnblogs.com/hhhuang/p/12176490.html