文章目录
若要在n个字符串中查找某个字符串,如果使用暴力方法就需要逐个匹配字符串,复杂度是O(n * m),m是字符串平均长度。还有一种比较快的方法就是字典树,像查单词那样,一次找一个字母,查找任意单词,复杂度为O(m),m是查询或插入字符串的长度。
字典树的基本性质:
- 根结点不包含字符,其余每结点都有一个字符
- 从根结点到这一路径末尾的所有点连起来就是该结点对应的字符串
- 设置一个标志标记末尾
常见的应用有字符串检索、词频统计、字符串排序、前缀匹配。
Trie字符串统计
维护一个字符串集合,支持两种操作:
- “I x”向集合中插入一个字符串x;
- “Q x”询问一个字符串在集合中出现了多少次。
共有N个操作,输入的字符串总长度不超过 105,字符串仅包含小写英文字母。
输入格式
第一行包含整数N,表示操作数。
接下来N行,每行包含一个操作指令,指令为”I x”或”Q x”中的一种。
输出格式
对于每个询问指令”Q x”,都要输出一个整数作为结果,表示x在集合中出现的次数。
每个结果占一行。
数据范围
1≤N≤2∗104
输入样例:
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例:
1
0
1
#include<iostream>
using namespace std;
const int N = 100010;
int son[N][26], cnt[N], idx;//son存当前点的所有儿子,cnt表示以当前点结尾的单词的个数,idx指向当前结点
//下标是0 的点,既是根结点,又是空结点
char str[N];
void insert(char str[])
{
int p = 0;//根结点
for(int i = 0;str[i];i ++ )
{
int u = str[i] - 'a';//把a~z映射成0~25的编号
if(!son[p][u]) son[p][u] = ++ idx;//当前结点没有儿子就要建一条路
p = son[p][u];//else p表示当前分支的最后一个点
}
cnt [p] ++ ;//表示以最后这个点结尾的单词数量又多了一个
}
//查找
int query(char str[])//返回字符串出现多少次
{
int p = 0;
for(int i =0; str[i]; i ++ )
{
int u = str[i] - 'a';
if(!son[p][u]) return 0;//如果不存在当前结点说明不存在这个单词
p = son[p][u];//else 继续
}
return cnt[p];//以p结尾的单词数量,在插入操作时值已经确定
}
int main()
{
int n;
cin >> n;
while(n -- )
{
char op[2];
cin >> op >> str;
if(op[0] == 'I') insert(str);
else cout << query(str) << endl;
}
return 0;
}
HUD1251 统计难题
Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.
注意:本题只有一组测试数据,处理到文件结束.
Output
对于每个提问,给出以该字符串为前缀的单词的数量.
Sample Input
banana
band
bee
absolute
acm
ba
b
band
abc
Sample Output
2
3
1
0
数组实现:
#include<iostream>
#include<cstring>
using namespace std;
const int N = 5e5 + 5;
int son[N][26], cnt[N], idx;//son存当前点的所有儿子,cnt表示以当前点结尾的单词的个数,idx指向当前结点
//下标是0 的点,既是根结点,又是空结点
char str[N];
void insert(char str[])
{
int p = 0;//根结点
for(int i = 0;str[i];i ++ )
{
int u = str[i] - 'a';//把a~z映射成0~25的编号
if(!son[p][u]) son[p][u] = ++ idx;////当前新分配的存储位置
p = son[p][u];//else p表示当前分支的最后一个点
cnt [p] ++ ;//只统计到前缀的
}
}
//查找
int query(char str[])//返回字符串出现多少次
{
int p = 0;
for(int i =0; str[i]; i ++ )
{
int u = str[i] - 'a';
if(!son[p][u]) return 0;//如果不存在当前结点说明不存在这个单词
p = son[p][u];//else 继续
}
return cnt[p];//以p结尾的单词数量,在插入操作时值已经确定
}
int main()
{
while(gets(str))
{
if(str[0] == ' ' || strlen(str) == 0)
break;
insert(str);
}
while(~scanf("%s", str))
{
printf("%d\n", query(str));
}
return 0;
}