查找算法 | 静态树表（次优查找树）详细分析

前面章节所介绍的有关在静态查找表中对特定关键字进行顺序查找、折半查找或者分块查找，都是在查找表中各关键字被查找概率相同的前提下进行的。

例如查找表中有 n 个关键字，表中每个关键字被查找的概率都是 1/n。在等概率的情况，使用折半查找算法的性能最优。

而在某些情况下，查找表中各关键字被查找的概率是不同的。例如水果商店中有很多种水果，对于不同的顾客来说，由于口味不同，各种水果可能被选择的概率是不同的。假设该顾客喜吃酸，那么相对于苹果和橘子，选择橘子的概率肯定要更高一些。

在查找表中各关键字查找概率不相同的情况下，对于使用折半查找算法，按照之前的方式进行，其查找的效率并不一定是最优的。例如，某查找表中有 5 个关键字，各关键字被查找到的概率分别为：0.1，0.2，0.1，0.4，0.2（全部关键字被查找概率和为 1 ），则根据之前介绍的折半查找算法，建立相应的判定树为（树中各关键字用概率表示）：

图 1 折半查找对应的判定树

折半查找查找成功时的平均查找长度的计算方式为：

ASL = 判定树中各结点的查找概率*所在层次

所以该平均查找长度为：

ASL=0.1*1 + 0.1*2 + 0.4*2 + 0.2*3 + 0.2*3 = 2.3

由于各关键字被查找的概率是不相同的，所以若在查找时遵循被查找关键字先和查找概率大的关键字进行比对，建立的判定树为：

图 2 折半查找对应的新判定树

相应的平均查找长度为：

ASL=0.4*1 + 0.2*2 + 0.2*2 + 0.1*3 + 0.1*3=1.8

后者折半查找的效率要比前者高，所以在查找表中各关键字查找概率不同时，要考虑建立一棵查找性能最佳的判定树。若在只考虑查找成功的情况下，描述查找过程的判定树其带权路径长度之和（用 PH 表示）最小时，查找性能最优，称该二叉树为静态最优查找树。

带权路径之和的计算公式为：PH = 所有结点所在的层次数 * 每个结点对应的概率值。

但是由于构造最优查找树花费的时间代价较高，而且有一种构造方式创建的判定树的查找性能同最优查找树仅差 1% - 2%，称这种极度接近于最优查找树的二叉树为次优查找树。

次优查找树的构建方法

次优查找树的算法描述如下：

扫描二维码关注公众号，回复： 4678454 查看本文章

已知一个序列：(r_l,r_l+1,……，r_h），递增有序。它对应的权值为：(w_l,w_l+1,……，w_h)。

定义：
$\Delta P_i = \begin{vmatrix} \sum_{j=i+1}^{h} w_j - \sum_{j=l}^{i-1} w_j \end{vmatrix}$

取 △P_i 最小的那个元素 i 作为根，然后分别对子序列（r_l,r_l+1,……，r_i-1）和（r_i+1,r_i+2,……，r_h）同样构造次优查找树，并分别作为 i 的左子树和右子树。

在计算 △P_i 时，实际上就是计算元素 i 前面的元素的权值之和与元素i后面的元素的权值之和的差值。如果对每一个元素都要这样计算就有很多重复计算，为了提高效率，我们引入“累计权值和”：
$sw_i = \sum_{j=l}^{i} w_j$

并设 w_l-1 = 0 和 sw_l-1 = 0，则
$\begin{cases} sw_{i-1} - sw_{l-1} = \sum_{j=l}^{i-1} w_j \\ sw_h - sw_i = \sum_{j=i+1}^{h} w_j \end{cases}$

$\begin{matrix} \Delta P_i = \begin{vmatrix} (sw_h - sw_i) - (sw_{i-1} - sw_{l-1}) \end{vmatrix} \\ = \begin{vmatrix} (sw_h + sw_{l-1}) - sw_i - sw_{i-1} \end{vmatrix} \end{matrix}$

从上面这个公式可以看出，我们只要一次性地求出所有元素的 sw_i 值并保存起来，以后每次求 △P_i 就只要查表中对应的四个 sw 值进行计算就可以了。

我们先来看看下面这个例子：

关键字		A	B	C	D	E	F	G	H	I
权值	0	1	1	2	5	3	4	4	3	5
j	0	1	2	3	4	5	6	7	8	9
sw_j	0	`1`	`2`	`4`	`9`	`12`	`16`	`20`	`23`	`28`
△P_j		27	25	22	15	7	`0`	8	15	23
（根）							`↑i`
△P_j		11	9	6	`1`	9		8	`1`	7
（根）					`↑i`				`↑i`
△P_j		3	`1`	2		`0`		`0`		`0`
（根）			`↑i`			`↑i`		`↑i`		`↑i`
△P_j		`0`		`0`
（根）		`↑i`		`↑i`

最终构造的次优二叉树如下图：

代码实现为：

typedef int KeyType;//定义关键字类型
typedef struct{
    KeyType key;
}ElemType;//定义元素类型
typedef struct BiTNode{
    ElemType data;
    struct BiTNode *lchild, *rchild;
}BiTNode, *BiTree;

//定义变量
int i;
int min;
int dw;
//创建次优查找树，R数组为查找表，sw数组为存储的各关键字的概率（权值），low和high表示的sw数组中的权值的范围
void SecondOptimal(BiTree T, ElemType R[], float sw[], int low, int high){
    //由有序表R[low...high]及其累计权值表sw（其中sw[0]==0）递归构造次优查找树
    i = low;
    min = abs(sw[high] - sw[low]);
    dw = sw[high] + sw[low - 1];
    //选择最小的△Pi值
    for (int j = low+1; j <=high; j++){
        if (abs(dw-sw[j]-sw[j-1])<min){
            i = j;
            min = abs(dw - sw[j] - sw[j - 1]);
        }
    }
   
    T = (BiTree)malloc(sizeof(BiTNode));
    T->data = R[i];//生成结点（第一次生成根）
    if (i == low) T->lchild = NULL;//左子树空
    else SecondOptimal(T->lchild, R, sw, low, i - 1);//构造左子树
    if (i == high) T->rchild = NULL;//右子树空
    else SecondOptimal(T->rchild, R, sw, i + 1, high);//构造右子树
}