介绍:关于字符串hash,一句话概括,就是把字符串有效的转化为一个整数
hash[i]=(hash[i-1]*p+idx(s[i]))%mod
for example:取p=13, mod=101,求abc对应的整数
hash[0]=1; 表示a映射1。
hash[1]=(hash[0]*13+idx(b))%101=15;表示ab映射15。
hash[2]=(hash[1]*13+idx(c))%101=97; 表示abc映射97。
同样的方法。我们可以将以下字符串进行映射:
abc ->97
bbc ->64
aba ->95
aadaabac ->35
这样,我们就可以记录下每一个字符串所对应的整数,若下一次出现一个字符串,查询整数是否出现过,就可以完成验证。
但是也有可能出现两个字符串对应一个整数。
调整方法:
调整p和mod,取p和mod都为较大的素数。 p取6~8位素数,mod一般取1e9+7或者1e9+9;
某种程度上,hash=乱搞,只要把他弄的越乱就越好,使得冲突概率最低。
常用的几种字符串hash方法:
多重hash的话,就是你用不同的两种或多种方式哈希,然后分别比对每一种哈希值是否相同——显然是增加了空间和时间,但也确实增加了其正确性。
#include<iostream>
using namespace std;
#include<string.h>
#include<string>
typedef unsigned long long ull;
int n,length;
#include<algorithm>
string a;
ull mod=1e9+7;
ull h[100010];
ull prime=233317;
ull hashw(string a)
{
length =a.size();
ull temp=((ull)a[0])%mod;
for(int i=1;i<length;i++)
{
temp=(temp*prime+(ull)a[i])%mod;
}
return temp;
}
int main()
{
cin>>n;
int ans=1;
for(int i=0;i<n;i++)
{
cin>>a;
h[i]=hashw(a);
}
sort(h,h+n);
for(int i=0;i<n-1;i++)
{
if(h[i]!=h[i+1])ans++;
}
cout<<ans<<endl;
return 0;
}