ST03Day4 字符串基础

Further Reading

      Hash

      https://codeforces.com/blog/entry/60445

      https://codeforces.com/blog/entry/60442

      Trie

      https://www.quora.com/q/threadsiiithyderabad/Tutorial-on-Trie-and-example-problems

      KMP & Z-Algorithm

      https://cp-algorithms.com/string/z-function.html

      https://vjudge.net/contest/70325

正题

     字符串基础就有:Hash,KMP,Ex-KMP(Z-Algorithm),字典树,AC自动机,fail树。

      这里只更新关于Hash的骚操作和Ex-KMP,因为其他都没有什么基础好说的。

      Hash

      对于基的取值,我们直接看看我们的字符集大概是多少,取足够大就可以,p要取较大的一个质数,否则就可以中国剩余定理将其拆开变成多个同余式,降低强度。(不过按理说去mu(p)不为0的倒不影响

      比较两个不同串,就有1/p的概率失败,期望比较p次就会出现错误,所以我们可以直接使用比较次数/p来得出我们错误的概率。

      如果比较n^2次或者以上,我们可以直接使用双哈希(四哈希)会更稳妥一些。

      不建议使用自然溢出哈希,有通用的hack方法。

       根据生日悖论,我们只需要O(根号域大小)的数字,我们就可以有50%的几率撞,这个概率是十分恐怖的,所以我们要多模数来保证域足够大。

      Hash Table

      讲了Hash就要讲这个,否则查是否有重复的时候只能用很慢的map,set,unorder_set。怎么做呢?我们将模数取小一点,然后开多个链表,每次插入的时候就找一找是否存在过,注意这里为了减小常数直接打指针,否则使用vector等容器会得不偿失。

数据结构

运行时间

std::set

2.526s

std::unordered_set (c++11)

1.912s

cc_hash_table (pb_ds)

0.934s

gp_hash_table (pb_ds)

0.336s

手写 Hash Table

0.150s

      时间十分显然了。

      Weak Periodicity Lemma

      如果字符串s有两个period p和q,并且p+q<=|s|,那么gcd(p,q)也是s的周期。 证明:设d=q-p,则由i-p>0或i+q<=|s|均可推出s[i]=s[i+d]。辗转相减即得结论。

      POJ1961

      相信很多人都做过这一题,直接kmp就可以了,找到i%(i-next[i])==0那么就存在否则就不存在。

      证明还是需要思考一下。考虑如果最小周期a不是整周期,假设现在存在一个不等于该串的整周期b,也就是说i%a!=0,i%b=0。那么可以知道因为a是最小的,就可以得到b%a!=0,那么根据Weak Periodcity Lemma就可以得到一个更小的周期,矛盾,所以得证。

      未知题(来源BZOJ NOI2016十连测Day5 Claris Contest)

      

      考虑如何优化kmp的往上跳过程,这里不能像在序列一样用“上一个与i不同后继的Border”来将跳的过程优化到log,因为这里是动态加点,形成了一棵树,如果Border已经<n/2那么就直接跳,否则我们可以证明周期p一定在跳fail的时候不断被跳(n/|p|)-1次。

      如何证明,假设存在这(n/|p|)-1次中有一次不是用p来跳,那么就说明在其中存在一个n串的Border不是n-p*k,然后转化为周期,就可以使用Weak Periodcity Lemma得到一个更小的周期。

      

猜你喜欢

转载自blog.csdn.net/Deep_Kevin/article/details/108088805
今日推荐