双数组TRIE树原理

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

                原贴:http://prozax.spaces.live.com/blog/cns!4381466BFEE95819!185.entry

双数组TRIE树原理

讲原理的网上有很多,不过一般大家看东西都喜欢看原版的。我也想把原版论文翻过来方便想了解trie树原理的人。就从今天开始把,顺便自己加深一下理解,o(∩_∩)o...哈哈。
原文名称:
An Efficient Digital Search Algorithm by Using a Double-Array Structure
作者:
JUN-ICHI AOE
译文:

使用双数组结构的一个高效的Digital Search算法

摘要: 

本文介绍了一种新的内部(内部排序的内部,也就是在内存里)数组结构的digital search算法,叫做双数组,结合了数组存取的快速和链式存储的压缩。Digital search树的每一条弧在双数组中都可以以O(1)的时间复杂度计算得到;也就是说,查找一个key值最坏的时间复杂度是O(k)k是这个key值的长度。本文给出了同时具有速度和空间双重性能的双数组的查找,插入,删除算法。假设双数组的长度是n+cmnds树中节点的数量,m是输入符号的数量,c是一个依赖于实现的常数;那么理论上可以证明插入和删除的最坏时间复杂度分别是cm2(插入要解决冲突,所以慢)和cm,与n没有关系。从实验的结果来看,建立双数组的时间随n增长,并且c是一个相当小的常数,从0.171.13 

关键词:数据库系统,数据结构,词典,digital search,动态内部存储,关键词查询算法。  ---

 

1.       导论 

在很多信息检索算法中,很需要采用一种快速的digital search算法,或者叫做trie搜索,因为它一个字符(digital)一 个字符地查看输入。使用这种数据结构的例子有一种词法分析器,和一种编译器的本地代码优化器,一种图书搜索,拼写检查,常用单词过滤器,一种自然语言处理 中的形态学分析器等等。词典能够动态增长在自然语言处理中尤为重要,因为经常需要对词汇表添加新词(这其实是双数组的弱项- -)。本文展示的这一算法适合插入远远多于删除的情况,这样删除带来的空间浪费就可以由插入来填补。 

       关键词查询策略可以被大致分为两类,按照关键词集合是否可变可以将这些算法分为“动态方法”(允许查询表被修改)和“静态方法”(显然相反)两种。广为人知的“动态方法”有:hashing,二叉树,B+树,扩展hashing,和trie hashing。而“静态方法”有:完美hashing,稀疏表,以及压缩trie。 当使用静态方法的时候我们能专注于提高查询速度和压缩数据结构,而当使用动态方法的时候我们会使用额外的空间以达到更快的更新速度。本文提出的查询方法正 好介于这两者之间,所以我称之为“弱静态方法”。将静态方法扩展到弱静态方法,同时保持前者有用的特性是十分困难的。完美hashing的扩展已经有了,但不能确定插入的时间复杂度上限。本文的目标是建立一种digital search算法,它同时具有静态方法的速度和压缩特性,以及动态方法的快速更新的能力。 

       不同于基于key值的搜索方法,digital search采用一连串的字符(digit)来表示一个key。每个h层的DS树的节点表示所有以一定的h个字符开始的关键词;这个节点根据第(h+1)个字符定义它的分支。本文的基本观念是压缩trie树,使用两个一维数组basecheck来表示trie树,成为双数组,并且给出更新(插入、删除)算法。Trie的每个节点使用指针指向下一个元素,每个索引元素是一个结束标志加上一个指向新节点的指针(或者null)。查询,插入,删除都非常快,但是它会占用很多空间,因为很多trie树节点是空的;也就是说,trie树是稀疏的。所以我们必须尝试映射节点rcheck数组,这种映射关系由base[r]指定。(没看懂- - 

       在接下来的章节,我们会详细描述我们的想法。在第二节,我们把DS树形式化为模式匹配机器并定义双数组使用O(1)时间计算一条弧。为了将双数组应用于大的关键词集合,双数组做出了一些修改。最主要的创新是仅将足以分辨不通关键词的前缀存储到双数组,将其他部分存储在单独的string里面。插入删除算法在第三章讨论。当插入一个新的非空位置r的时候遇到另一个节点k已经占用这个位置,插入算法通过重新调整base[r]或者base[k]来解决冲突。在本文中,为减少占用的时间和空间占用组少非空未知的kr有优先权(就是移动占用少的,占用多的不变)。第四节讨论了每个算法的最坏时间复杂度的理论值,并且通过实验验证了。双数组的部分匹配和key-order查询也做出了讨论。最后第五节做出了结论总结。

            

给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

这里写图片描述

猜你喜欢

转载自blog.csdn.net/sdfshfh/article/details/84060696