BZOJ 3097 Hash Killer I

https://www.lydsy.com/JudgeOnline/problem.php?id=3097

题目

这天天气不错,hzhwcmhf神犇给VFleaKing出了一道题:
给你一个长度为N的字符串S,求有多少个不同的长度为L的子串。
子串的定义是S[l]、S[l + 1]、... S[r]这样连续的一段。
两个字符串被认为是不同的当且仅当某个位置上的字符不同。

VFleaKing一看觉得这不是Hash的裸题么!于是果断写了哈希 + 排序。
而hzhwcmhf神犇心里自然知道,这题就是后缀数组的height中 < L的个数 + 1,就是后缀自动机上代表的长度区间包含L的结点个数,就是后缀树深度为L的结点的数量。
但是hzhwcmhf神犇看了看VFleaKing的做法表示非常汗。于是想卡掉他。

VFleaKing使用的是字典序哈希,其代码大致如下:

u64 val = 0;
for (int i = 0; i < l; i++)
    val = val * base + s[i] - 'a';

u64是无符号int64,范围是[0, 2^64)。VFleaKing让val自然溢出。
base是一个常量,VFleaKing会根据心情决定其值。
VFleaKing还求出来了base ^ l,即base的l次方,这样就能方便地求出所有长度为L的子串的哈希值。
然后VFleaKing给哈希值排序,去重,求出有多少个不同的哈希值,把这个数作为结果。
其算法的C++代码如下:

typedef unsigned long long u64;

const int MaxN = 100000;

inline int hash_handle(const char *s, const int &n, const int &l, const int &base)
{
    u64 hash_pow_l = 1;
    for (int i = 1; i <= l; i++)
        hash_pow_l *= base;

    int li_n = 0;
    static u64 li[MaxN];

    u64 val = 0;
    for (int i = 0; i < l; i++)
        val = val * base + s[i] - 'a';
    li[li_n++] = val;
    for (int i = l; i < n; i++)
    {
        val = val * base + s[i] - 'a';
        val -= (s[i - l] - 'a') * hash_pow_l;
        li[li_n++] = val;
    }

    sort(li, li + li_n);
    li_n = unique(li, li + li_n) - li;
    return li_n;
}

 hzhwcmhf当然知道怎么卡啦!但是他想考考你。

Input

没有输入

Output

你需要输出一组数据使得VFleaKing的代码WA掉。我们会使用Special Judge检查你的结果的正确性。

输出文件共两行。

第一行两个用空格隔开的数n、l。

第二行是一个长度为n的字符串。只能包含'a'~'z'。

需要保证1 <= n <= 10^5, 1 <= l <= n,

不符合以上格式会WA。

不要有多余字符,很可能导致你WA。

Sample Input

没有

Sample Output

8 4
buaabuaa
(当然这个输出是会WA的)

题解

卡Hash的关键是构造两个串$S_a,S_b$,使$H(S_a)\equiv H(S_b)\pmod {2^{64}}$,但$S_a\ne S_b$

容易写出

$$H(S)=S[0]\times B^{n-1}+S[1]\times B^{n-2}+\cdots+S[n-1]B^0,n=\left\lvert S\right\rvert$$

设$\Delta[i]=S_a[i]-S_b[i]$只需

$$\Delta[0]\times B^{n-1}+\Delta[1]\times B^{n-2}+\cdots+\Delta[n-1]B^0\equiv 0\pmod{2^{64}}$$

当$B$是偶数时,$2\mid B$,因此$\Delta[i]$对应的$B$的指数$i\geqslant64$时,$\Delta[i]$对上式无影响,因此可以随便取,剩下的取0

即前面的字符串随便取,保证剩余长度为64($63-0+1$)的字符串相同

这样就卡掉了$B$为偶数的情况

接下来是抄的vfk大神的……


当$B$是奇数时,$\Delta$就不是那么好取了,可以通过构造出递推形式得

设$S_a=S[i],S_b=!S[i]$

$S[i]=S[i-1]\cdot (!S[i-1])$

$S[1]=x$,$\left\lvert{S[1]}\right\rvert=1$

$!S[1]=y,x\ne y$

其实就是x换成y,y换成x……

$i=1$显然卡不掉,考虑$i>1$

$$\left\lvert{S[i]}\right\rvert=2^{i-1} %\tag{1}\lable{1}$$

$H(S[i])=B^{\left\lvert{S[i-1]}\right\rvert}H(S[i-1])+H(!S[i-1])$

$H(!S[i])=B^{\left\lvert{!S[i-1]}\right\rvert}H(!S[i-1])+H(S[i-1])$

使$H(S[i])\equiv H(!S[i])\pmod{0}$,即

$$H(S[i])-H(!S[i])\equiv0\pmod{2^{64}}$$

$$F(i)=H(S[i])-H(!S[i])$$

$$F(i)=(B^{2^{i-1}}-1)[H\left(S[i-1]\right)-H\left(!S[i-1]\right)]=(B^{2^{i-1}}-1)F(i-1)$$


因为$B^{2^{i-1}}-1$是一个偶数

设$B^{2^{i-1}}-1=2k_{i-1}$

可以推得

$$F(i)=2k_{i-1}[H(S[i-1])-H(!S[i-1])]=2^{i-1}\prod_{j=0}^{i-1}k_j$$

可得$i-1\geqslant64$,即$i\geqslant65$时,$H(S[i])\equiv H(!S[i])\pmod{2^{64}}$

然而这个数字太大了,$\left\lvert S[i]\right\rvert=2^{64}>10^5$,显然不能用,因此需要继续考虑= =


需要观察$B^{2^{i-1}}-1$,

$i=2$时显然卡不掉,考虑$i>2$

$B^{2^{i-1}}-1=(B^{2^{i-2}})^2-1^2=(B^{2^{i-2}}-1)(B^{2^{i-2}}+1)$

$B^{2^{i-2}}+1$是偶数,设为$2K_{i-2}$

设$B^{2^{i-1}}-1=g[i]$

$$g[i]=\left\{\begin{array}{ll}B-1&,i=1\\B^2-1&,i=2\\2K_{i-2}g[i-1]&,i>2\\\end{array}\right\}=\left\{\begin{array}{ll}B-1&,i=1\\B^2-1&,i=2\\2^{i-2}t&,i>2,t=一大坨\\\end{array}\right\}$$

经验证,$i>2$的形式对$i=1,2$也成立,即

$g[i]=2^it'$

可以推得

$$F(i)=2^{\frac{i+1}{2}\times i}$$

令$\frac{i+1}{2}\times i\geqslant 64$,得$i\geqslant11$

所以就可以得到两个串$S[11]$和$!S[11]$的Hash相同,可以卡


因此最终答案是$S[11]\cdot!S[11]\cdot$任意$64$个相同字符

AC代码

#include<cstdio>
#include<cstdlib>
#include<cctype>
#include<cstring>
#include<algorithm>
#include<set>
#include<ctime>
#define REP(r,x,y) for(register int r=(x); r<(y); r++)
#define REPE(r,x,y) for(register int r=(x); r<=(y); r++)
#define PERE(r,x,y) for(register int r=(x); r>=(y); r--)
#ifdef sahdsg
#define DBG(...) printf(__VA_ARGS__),fflush(stdout)
#else
#define DBG(...) (void)0
#endif
using namespace std;
typedef long long LL;
typedef unsigned long long ULL;

char ch; int si;
char buf[1<<21],*p1=buf,*p2=buf;
int beof = 0;
#define gc() (beof?EOF:(p1==p2&&(p2=(p1=buf)+fread(buf,1,1<<21,stdin),p1==p2)?(beof=EOF):*p1++))
#define gl(x) {char*s=x;while(isspace(*s=gc()));s++;while(!isspace(*s=gc()))s++;*s=0;}

template<class T>
inline void read(T &x) {
    x=0; si=1; for(ch=gc();!isdigit(ch) && ch!='-';ch=gc()) if(beof) return;
    if(ch=='-'){si=-1,ch=gc();} for(;isdigit(ch);ch=gc())x=x*10+ch-'0';
    x*=si;
}
//template<class T, class...A> inline void read(T &x, A&...a){read(x); read(a...);}

const int MaxN = 100000;

char S[(1<<11)+7];

int main() {
    printf("%d %d\n", (1<<11)+64, 1<<10);
    S[0]='x';
    REPE(i,2,12) {
        REP(j,0,1<<i-2) {
            S[j+(1<<i-2)]=S[j]=='x'?'y':'x';
        }
    }
    REP(j,0,1<<11) putchar(S[j]);
    REP(i,0,64) putchar('r');
    return 0;
}

 看完这题会发现自然取模很好卡……

猜你喜欢

转载自www.cnblogs.com/sahdsg/p/10849807.html