后缀数组模板及简单的入门题总结

后缀数组模板:

const int maxn = 1e5+5;//开总串长度
int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank[maxn],height[maxn],s[maxn];
char str1[maxn],str2[maxn];

//sa:字典序中排第i位的起始位置在str中第sa[i]  sa[1~n]为有效值
//rank:就是str第i个位置的后缀是在字典序排第几 rank[0~n-1]为有效值
//height:字典序排i和i-1的后缀的最长公共前缀  height[2~n]为有效值,第二个到最后一个

int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}

void getsa(int *r,int *sa,int n,int m)//n为添加0后的总长
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++)  wsf[i]=0;
    for(i=0; i<=n; i++)  wsf[x[i]=r[i]]++;
    for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
    for(i=n; i>=0; i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(; p<=n; j*=2,m=p)
    {
        for(p=0,i=n+1-j; i<=n; i++)  y[p++]=i;
        for(i=0; i<=n; i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0; i<=n; i++)  wv[i]=x[y[i]];
        for(i=0; i<m; i++)  wsf[i]=0;
        for(i=0; i<=n; i++)  wsf[wv[i]]++;
        for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
        for(i=n; i>=0; i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1; i<=n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}

void getheight(int *r,int n)//n为添加0后的总长
{
    int i,j,k=0;
    for(i=1; i<=n; i++)  rank[sa[i]]=i;
    for(i=0; i<n; i++)
    {
        if(k)
            k--;
        else
            k=0;
        j=sa[rank[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[rank[i]]=k;
    }
}

后缀数组第一题:

POJ2774
链接
题意求两个串的最长公共子串,我们可以把两个串用一个特殊字符拼接,然后跑 S A h e i g h t ,由于最长公共子串肯定是 h e i g h t 中的某一个,而且要满足 s a [ i ] s a [ i 1 ] 分别属于两个串,所以只要跑一遍后缀数组遍历一遍 h e i g h t 就好了。
POJ2774代码

#include <iostream>
#include <stdio.h>
#include <string.h>
using namespace std;
#define maxn 200005

int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank[maxn],height[maxn],s[maxn];
char str1[maxn],str2[maxn];
int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}
void getsa(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++)  wsf[i]=0;
    for(i=0; i<=n; i++)  wsf[x[i]=r[i]]++;
    for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
    for(i=n; i>=0; i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(; p<=n; j*=2,m=p)
    {
        for(p=0,i=n+1-j; i<=n; i++)  y[p++]=i;
        for(i=0; i<=n; i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0; i<=n; i++)  wv[i]=x[y[i]];
        for(i=0; i<m; i++)  wsf[i]=0;
        for(i=0; i<=n; i++)  wsf[wv[i]]++;
        for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
        for(i=n; i>=0; i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1; i<=n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}

void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1; i<=n; i++)  rank[sa[i]]=i;
    for(i=0; i<n; i++)
    {
        if(k)
            k--;
        else
            k=0;
        j=sa[rank[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[rank[i]]=k;
    }
}

int main()
{
    int len,n;
    while(~scanf("%s%s",str1,str2))
    {
        n=0;
        len=strlen(str1);
        for(int i=0;i<len;i++)
            s[n++]=str1[i]-'a'+1;
        s[n++]=30;
        len=strlen(str2);
        for(int i=0;i<len;i++)
            s[n++]=str2[i]-'a'+1;
        s[n]=0;//两串拼接末尾添0
        getsa(s,sa,n,31);
        getheight(s,n);
        len=strlen(str1);
        int ans=0;
        for(int i=2;i<=n-1;i++)
        {
            if(height[i]>ans)
            {
                if(sa[i-1]>=0&&sa[i-1]<len&&sa[i]>len)
                    ans=max(ans,height[i]);
                if(sa[i]>=0&&sa[i]<len&&sa[i-1]>len)
                    ans=max(ans,height[i]);
            }
        }
        printf("%d\n",ans);
    }

    return 0;
}

后缀数组第二题

POJ3450
链接
题意为求多个串的最长公共子串,参考上题的做法,我们可以用特殊字符对所有字符串进行拼接,但是问题在于如果找到这个最长公共子串。数据量为 n < 4000 l e n < 200 如果我们像上题一样遍历所有的长度是不可能的,所以我们可以二分这个长度然后进行验证。
那么怎么验证呢?

我们可以从 2 n 遍历height数组,如果有某一段连续的区间 h e i g h t 数组均大于 m i d ,而且这段区间拥有来自 n 个串的后缀,就说明 m i d 是可行的。如果方案可行,我们可以保存这个最长子串的起始位置,也就是 s a [ i ] ,以便最后输出字符串。

本体要提前预处理新串的每个位置来自那个字符串,以便验证。验证的复杂度为 O ( l e n + n k ) l e n 为新串长度,n为原串个数,k为拥有大于mid的height数组的块数,其中 n k 是每次重置vis数组以便统计某个块来自多少个不同的子串。

POJ3450代码

#include <iostream>
#include<algorithm>
#include <stdio.h>
#include <string.h>
using namespace std;
#define maxn 800005
const int INF = 0x3f3f3f3f;
int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank[maxn],height[maxn],s[maxn];
char str[4005][205];
int t,lenn[maxn];
int belong[maxn];
int anspos;
int vis[4005];
int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}
void getsa(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++)  wsf[i]=0;
    for(i=0; i<=n; i++)  wsf[x[i]=r[i]]++;
    for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
    for(i=n; i>=0; i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(; p<=n; j*=2,m=p)
    {
        for(p=0,i=n+1-j; i<=n; i++)  y[p++]=i;
        for(i=0; i<=n; i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0; i<=n; i++)  wv[i]=x[y[i]];
        for(i=0; i<m; i++)  wsf[i]=0;
        for(i=0; i<=n; i++)  wsf[wv[i]]++;
        for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
        for(i=n; i>=0; i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1; i<=n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}
void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1; i<=n; i++)  rank[sa[i]]=i;
    for(i=0; i<n; i++)
    {
        if(k)
            k--;
        else
            k=0;
        j=sa[rank[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[rank[i]]=k;
    }
}
int check(int x,int n)
{
    for(int i=1;i<=n-1;i++)
    {
        if(height[i]<x) continue;
        int cnt=0;
        for(int j=0;j<=t;j++) vis[j]=0;
        while(height[i]>=x&&i<=n-1)
        {
            if(!vis[belong[sa[i-1]]])
            {
                vis[belong[sa[i-1]]]=1;
                cnt++;
            }
            i++;
        }
        if(!vis[belong[sa[i-1]]])
        {
            vis[belong[sa[i-1]]]=1;
            cnt++;
        }
        if(cnt>=t)
        {
            anspos=sa[i-1];
            return true;
        }
    }
    return false;
}
int main()
{
    int len,n;
    while(~scanf("%d",&t))
    {
        if(t==0) break;
        n=0;
        int pos=30;
        for(int i=0;i<t;i++)
        {
            scanf("%s",str[i]);
            lenn[i]=strlen(str[i]);
            for(int j=0;j<lenn[i];j++)
             {
                 s[n++]=str[i][j]-'a'+1;
                 belong[n-1]=i;
             }
            s[n++]=pos++;
        }
        s[n]=0;
        getsa(s,sa,n,5000);
        getheight(s,n);
        int l=1,r=200,mid;
        while(l<=r)
        {
            mid=(l+r)>>1;
            if(check(mid,n)) l=mid+1;
            else r=mid-1;
        }
        if(r==0) printf("IDENTITY LOST\n");
        else
        {
            for(int i=anspos;i<anspos+r;i++)
                printf("%c",s[i]-1+'a');
            printf("\n");
        }
    }
    return 0;
}

后缀数组第三题

POJ3294
链接
题意为给你n个字符串,求至少出现在 [ n 2 ] 个串中的最长公共子串,如果有多个全部输出。

本题和上题几乎一模一样,只是要把判断条件由来自n个串改成来自 [ n 2 ] 个串,注意一下存储答案的方式,如果当前二分量存在答案并且第一次访问,那么清空 v e c t o r ,如果不是第一次访问,就在 v e c t o r 里面 p u s h _ b a c k 就好了。
POJ3294代码

#include <iostream>
#include<algorithm>
#include <stdio.h>
#include <string.h>
#include <vector>
using namespace std;
#define maxn 150005
const int INF = 0x3f3f3f3f;
int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank[maxn],height[maxn],s[maxn];
char str[105][1005];
int t,lenn[maxn];
int belong[maxn];
int vis[105];
vector<int> anspos;
int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}
void getsa(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++)  wsf[i]=0;
    for(i=0; i<=n; i++)  wsf[x[i]=r[i]]++;
    for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
    for(i=n; i>=0; i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(; p<=n; j*=2,m=p)
    {
        for(p=0,i=n+1-j; i<=n; i++)  y[p++]=i;
        for(i=0; i<=n; i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0; i<=n; i++)  wv[i]=x[y[i]];
        for(i=0; i<m; i++)  wsf[i]=0;
        for(i=0; i<=n; i++)  wsf[wv[i]]++;
        for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
        for(i=n; i>=0; i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1; i<=n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}
void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1; i<=n; i++)  rank[sa[i]]=i;
    for(i=0; i<n; i++)
    {
        if(k)
            k--;
        else
            k=0;
        j=sa[rank[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[rank[i]]=k;
    }
}
int check(int x,int n)
{
    int flag=0;
    for(int i=1;i<=n-1;i++)
    {
        if(height[i]<x) continue;
        int cnt=0;
        for(int j=0;j<=t;j++) vis[j]=0;
        while(height[i]>=x&&i<=n-1)
        {
            if(!vis[belong[sa[i-1]]])
            {
                vis[belong[sa[i-1]]]=1;
                cnt++;
            }
            i++;
        }
        if(!vis[belong[sa[i-1]]])
        {
            vis[belong[sa[i-1]]]=1;
            cnt++;
        }
        if(cnt>t/2)
        {
            if(flag==0)
            {
                flag=1;
                anspos.clear();
                anspos.push_back(sa[i-1]);
            }
            else
            {
                anspos.push_back(sa[i-1]);
            }
        }
    }
    if(flag==0) return false;
    else return true;
}
int main()
{
    int len,n;
    while(scanf("%d",&t)!=EOF)
    {
        if(t==0)
        {
            printf("\n");
            break;
        }
        n=0;
        int pos=30;
        for(int i=0;i<t;i++)
        {
            scanf("%s",str[i]);
            lenn[i]=strlen(str[i]);
            for(int j=0;j<lenn[i];j++)
             {
                 s[n++]=str[i][j]-'a'+1;
                 belong[n-1]=i;
             }
            s[n++]=pos++;
        }
        s[n]=0;
        getsa(s,sa,n,150);
        getheight(s,n);
        anspos.clear();
        int l=1,r=1000,mid;
        while(l<=r)
        {
            mid=(l+r)>>1;
            if(check(mid,n)) l=mid+1;
            else r=mid-1;
        }
        if(r==0) printf("?\n");
        else
        {
            for(int i=0;i<anspos.size();i++)
            {
                for(int j=anspos[i];j<anspos[i]+r;j++)
                    printf("%c",s[j]-1+'a');
                printf("\n");
            }
        }
        printf("\n");
    }
    return 0;
}

后缀数组第四题

POJ3415
题意为给定两个字符串A和B,求长度不小于k的公共子串的个数(可以相同)

这道题我们先考虑暴力的做法,我们可以将两串拼接求出 h e i g h t 数组,答案为所有分别属于A,B的后缀的 ( l c p k + 1 ) 之和,我们可以 n 2 解决这个问题。

但是本题的范围 n 2 是会超时的,所以我们要考虑 h e i g h t 数组的性质, l c p ( i , j ) 就是 h e i g h t [ i ] h e i g h t [ j ] 中的最小值,所以我们可以构造一个单调递增的单调栈,用来维护到某个位置之前的 h e i g h t 的递增情况,如果当前 h e i g h t [ i ] < s t a [ t o p ] ,那么表示当前栈顶元素不能表示接下来的 l c p ,我们需要将栈顶的贡献修改,然后更换栈顶元素,在维护栈顶元素下标的同时,还要维护这个栈顶元素代表着前面多少个后缀的最小 h e i g h t ,以便于最后算贡献。

算贡献的时候,要减去原来的贡献,也就是之前栈顶元素的贡献 该栈顶元素代替的相同 h e i g h t 数量,然后加上当前的贡献 当前栈顶元素代替的相同 h e i g h t 数量,然后修改当前栈顶元素以及所代表的数量,然后 a n s 统计贡献

以A入栈B统计和B入栈A统计的顺序分别两次计算,最终得到的即为正确答案。

POJ3415代码

#include <iostream>
#include <stdio.h>
#include <string.h>
using namespace std;
#define maxn 300005
int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank[maxn],height[maxn],s[maxn];
char str1[maxn],str2[maxn];
int sta[maxn];
int cnt[maxn];
int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}
void getsa(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++)  wsf[i]=0;
    for(i=0; i<=n; i++)  wsf[x[i]=r[i]]++;
    for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
    for(i=n; i>=0; i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(; p<=n; j*=2,m=p)
    {
        for(p=0,i=n+1-j; i<=n; i++)  y[p++]=i;
        for(i=0; i<=n; i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0; i<=n; i++)  wv[i]=x[y[i]];
        for(i=0; i<m; i++)  wsf[i]=0;
        for(i=0; i<=n; i++)  wsf[wv[i]]++;
        for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
        for(i=n; i>=0; i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1; i<=n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}
void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1; i<=n; i++)  rank[sa[i]]=i;
    for(i=0; i<n; i++)
    {
        if(k)
            k--;
        else
            k=0;
        j=sa[rank[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[rank[i]]=k;
    }
}
int main()
{
    int len,n,k;
    while(~scanf("%d",&k)!=EOF)
    {
        if(k==0) break;
        scanf("%s%s",str1,str2);
        n=0;
        len=strlen(str1);
        for(int i=0;i<len;i++)
            s[n++]=str1[i]-'A'+1;
        s[n++]=60;
        len=strlen(str2);
        for(int i=0;i<len;i++)
            s[n++]=str2[i]-'A'+1;
        s[n]=0;
        getsa(s,sa,n,100);
        getheight(s,n);
        len=strlen(str1);
        long long ans=0;
        int top=0;
        long long sum=0;
        for(int i=2;i<=n-1;i++)
        {
            if(height[i]<k)
            {
                top=0;
                sum=0;
            }
            else
            {
                int num=0;
                while(top&&height[i]<sta[top])
                {
                    sum-=1LL*(sta[top]-k+1)*cnt[top];
                    sum+=1LL*(height[i]-k+1)*cnt[top];
                    num+=cnt[top];
                    top--;
                }
                sta[++top]=height[i];
                if(sa[i-1]>len)
                {
                    sum+=(long long)height[i]-k+1;
                    cnt[top]=num+1;
                }
                else cnt[top]=num;
                if(sa[i]<len) ans+=sum;
            }
        }
        top=0;
        sum=0;
        for(int i=2;i<=n-1;i++)
        {
            if(height[i]<k)
            {
                top=0;
                sum=0;
            }
            else
            {
                int num=0;
                while(top&&height[i]<sta[top])
                {
                    sum-=1LL*(sta[top]-k+1)*cnt[top];
                    sum+=1LL*(height[i]-k+1)*cnt[top];
                    num+=cnt[top];
                    top--;
                }
                sta[++top]=height[i];
                if(sa[i-1]<len)
                {
                    sum+=(long long)height[i]-k+1;
                    cnt[top]=num+1;
                }
                else cnt[top]=num;
                if(sa[i]>len) ans+=sum;
            }
        }
        printf("%lld\n",ans);
    }
    return 0;
}

后缀数组第五题

URAL1297
题意为计算最长回文子串
类似于求两个字符串的最长公共子串,我们可以把 s t r 和逆置后的 s t r 进行拼接,类似于求最长公共子串的做法就可以了,但是由于我们利用height数组,要考虑 a b e a 这种情况。
URAL1297代码

#include <iostream>
#include <stdio.h>
#include <string.h>
using namespace std;
#define maxn 3005

int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank_[maxn],height[maxn],s[maxn];
char str1[maxn],str2[maxn];
int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}

void getsa(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++)  wsf[i]=0;
    for(i=0; i<=n; i++)  wsf[x[i]=r[i]]++;
    for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
    for(i=n; i>=0; i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(; p<=n; j*=2,m=p)
    {
        for(p=0,i=n+1-j; i<=n; i++)  y[p++]=i;
        for(i=0; i<=n; i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0; i<=n; i++)  wv[i]=x[y[i]];
        for(i=0; i<m; i++)  wsf[i]=0;
        for(i=0; i<=n; i++)  wsf[wv[i]]++;
        for(i=1; i<m; i++)  wsf[i]+=wsf[i-1];
        for(i=n; i>=0; i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1; i<=n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}

void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1; i<=n; i++)  rank_[sa[i]]=i;
    for(i=0; i<n; i++)
    {
        if(k)
            k--;
        else
            k=0;
        j=sa[rank_[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[rank_[i]]=k;
    }
}

int main()
{
    int len,n;
    while(~scanf("%s",str1))
    {
        n=0;
        len=strlen(str1);
        for(int i=0;i<len;i++)
            s[n++]=str1[i]-'A'+1;
        s[n++]=60;
        for(int i=len-1;i>=0;i--)
            s[n++]=str1[i]-'A'+1;
        s[n]=0;
        getsa(s,sa,n,70);
        getheight(s,n);
        len=strlen(str1);
        int ans=1;//如果不重置为1,答案为1时则会按照字典序输出最小的
        int anspos=0;
        for(int i=2;i<=n-1;i++)
        {
            int minn=min(sa[i],sa[i-1]);
            int maxx=max(sa[i],sa[i-1]);
            if(minn>len||maxx<len)  continue;
            if(n-maxx==minn+height[i]) continue;//处理abea这种情况
             if(height[i]>ans)
            {
                ans=height[i];
                anspos=minn;
            }
            else if(height[i]==ans)
            {
                anspos=min(minn,anspos);
            }

        }
        for(int i=anspos;ans--;i++)
            printf("%c",s[i]-1+'A');
        printf("\n");
    }

    return 0;
}

未完待续…

猜你喜欢

转载自blog.csdn.net/qq_38891827/article/details/80339134
今日推荐