2020.2.1每日一题“哈希hash”

何为哈希

哈希其实就是将不好处理的字符串转化成整数，方便存储，可使用性更高。

初见哈希时觉得这个思路挺溜的，接下来讲讲哈希是怎么操作的。

哈希的具体操作

将字符串中的a-z看成1-26

这个字符串就可以变成一个p进制的整数

举个例子abcd；

他就等于1p^3 +2p^2+3 p^1+4.

转化成公式就是hash[i]=hash[i-1]+str[i];（这里用到了递归）

实际应用当中字符串较长的时候，这个数会变得很大

所以我们要限制一个大小防止溢出

但这个限制要尽可能大，毕竟那么多字符串可用的值太少就会有太多重复

一般的，我们将这个限制定为2^64-1,也就是unsigned long long的范围

（其实在实际应用中，通常利用32/64位无符号整数来计算哈希值的，这样的话，当哈希值溢出时，系统会自动对h=2^32 / h=2^64取模。）

再看p值，通过大量的数据研究发现当p取131、13331时重复率会大大减小

为了不每次都算p的几次方，可以将p的次方先打表成一个p数组每次用时代入下标即可

获取字串的hash

在这里插入图片描述

如图，小圈圈代表字符，L为左边界，R为右边界

Hash[L-R字串]=hash[R]-hash[L-1]*p[R-L-1];

真题演练

很久很久以前，森林里住着一群兔子。

有一天，兔子们想要研究自己的 DNA 序列。

我们首先选取一个好长好长的 DNA 序列（小兔子是外星生物，DNA 序列可能包含 26 个小写英文字母）。

然后我们每次选择两个区间，询问如果用两个区间里的 DNA 序列分别生产出来两只兔子，这两个兔子是否一模一样。

注意两个兔子一模一样只可能是他们的 DNA 序列一模一样。

输入格式

第一行输入一个 DNA 字符串 S。

第二行一个数字 m，表示 m 次询问。

接下来 m 行，每行四个数字 l1,r1,l2,r2l1,r1,l2,r2，分别表示此次询问的两个区间，注意字符串的位置从1开始编号。

输出格式

对于每次询问，输出一行表示结果。

如果两只兔子完全相同输出 Yes，否则输出 No（注意大小写）。

数据范围

1≤length(S),m≤1000000

输入样例：

aabbaabb
3
1 3 5 7
1 3 6 8
1 2 1 2

输出样例：

Yes
No
Yes

代码实现：

#include<stdio.h>
#include<string.h>
typedef unsigned long long ULL;
ULL p[1000010],h[1000010];
int main()
{
   char s[1000010];
   scanf("%s",s+1);
   p[0]=1;
   int n=strlen(s+1);
   for(int i=1;i<=n;i++)
   {
       h[i]=h[i-1]*131+s[i]-'a'+1;
       p[i]=p[i-1]*131;
   }
   int t;
   scanf("%d",&t);
   while(t--)
   {
       int l,r,L,R;
       scanf("%d%d%d%d",&l,&r,&L,&R);
       if(h[r]-h[l-1]*p[r-l+1]==h[R]-h[L-1]*p[R-L+1])
        printf("Yes\n");
       else
        printf("No\n");
   }
}

LeBronGod

发布了32 篇原创文章 · 获赞 5 · 访问量 910

私信关注