字典树解析与模板C++

字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

它有3个基本性质
根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。

一、原理: 就是利用字符串的公共前缀(同一个树枝)来减少查询时间,最大限度地减少无谓的字符串比较。

我们依次向空的字典树插入三个单词‘app’,‘call’和‘cafe’后字典树就变为这样:
在这里插入图片描述
二、优点:
1.我们从一大堆单词里查找一个单词是否出现,可节省大量时间,建树需要O(单词表的长度),查找只需O(要查询单词的长度),这个时间与一个一个对比是非常可观的。
2.查询一个字符串是否为其他n个字符串的前缀。
3.可以实际应用与搜索引擎和铭感词过滤。

那我们怎么用代码实现呢?

三、思路:这个树我们可以用一个二维数组来存,比如这个字典树要保存的单词是只包含小写字母的,那么我们可以用一个二维数组tree[M][26] 来保存这颗树(a->0,b->1,……,z->25)。这个二维数组记录每个节点编号,根节点编号为0,有人会问,为什么不让存在的节点tree数组都标1,其实我们编号是为了定位!在建树和查找遍历树时,我们是沿着某条树脂一步一步深入的,而且如果不对每个顶点进行区分,我们无法保存每个节点的状态(如该顶点经过的次数,以及是否为一个单词的结尾等等)。

用HDU一题引出模板:
四、题目:
HDU1251
Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).

Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.

注意:本题只有一组测试数据,处理到文件结束.

Output
对于每个提问,给出以该字符串为前缀的单词的数量.

五、字典树模板:(有详细注释)

扫描二维码关注公众号,回复: 9646710 查看本文章
#include<bits/stdc++.h>
using namespace std;
int num=0;//顶点编号 
int tree[5000005][26];
int sum[5000005];//用于提问:给出以该字符串为前缀的单词的数量. 
int book[5000005];//book[i]表示节点i是否是一个单词的结尾,此题显然不用 
void insert(char s[])//建字典树 
{
	int now=0;//当前顶点编号 即根节点编号 
	for(int i=0;i<strlen(s);i++){
		int id=s[i]-'a';//输入为全是小写的字符串
		if(!tree[now][id])//不存在就新建节点 
		tree[now][id]=++num;
		now=tree[now][id];//当前顶点更新为上一个节点的孩子节点 
		sum[now]++;//记录每一个节点访问次数 
	}
	book[now]=1;//给结尾标记 
	return;
}
int finds(char s[])
{
	int now=0;
	for(int i=0;i<strlen(s);i++){
		int id=s[i]-'a';
		if(tree[now][id])//当前节点不为空 即存在 
		{
			now=tree[now][id]; 
		}
		else//不存在 
		return 0;//不能作为每个词的前缀 
	}
	return sum[now];
}
int main()
{
    int n;
    char s[12];
    //建树 
    while(gets(s)&&s[0]!='\0')//一个空行代表单词表的结束.
    {
    	insert(s);
	}
	//查询 
	while(gets(s))
	{
		printf("%d\n",finds(s));
	}
    return 0;
}


六、字典树的其他变形
1.01字典树
2.可持久化01字典树

发布了68 篇原创文章 · 获赞 15 · 访问量 8998

猜你喜欢

转载自blog.csdn.net/qq_43791377/article/details/104623925
今日推荐