哈希表详解

一、哈希表法简介

哈希表（Hash table，也叫散列表），是根据关键字（Key Value）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。

若关键字为k，则其值存放在f(k)的存储位置上。由此，不需比较便可直接取得所查记录。称这个对应关系f为散列函数，按这个思想建立的表为哈希表。

二、哈希冲突

对不同的关键字可能得到同一散列地址，即k1≠k2，而f(k1)=f(k2)，这种现象称为冲突。具有相同函数值的关键字对该散列函数来说称做同义词。

三、构造哈希函数的方法

（1）直接定址法

思想：取关键字或关键字的某个线性函数值为散列地址。即hash(k)=k或hash(k)=ak + b，其中a，b为常数。

特点：对于不同的关键字不会产生冲突，缺点是由于关键字集合很少是连续的，会造成空间的大量浪费。

（2）除留余数法

思想：取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即hash(k)=k mod p， p≤m。不仅可以对关键字直接取模，也可在折叠法、平方取中法等运算之后取模。

特点：对p的选择很重要，一般取小于m的最大素数，若p选择不好，容易产生冲突。

（3）数字分析法

思想：假设关键字是以r为基的数，并且哈希表中可能出现的关键字都是事先知道的，则可选取关键字的若干数位组成哈希地址。

特点：需要对关键字进行分析。

（4）平方取中法

思想：取关键字平方后的中间几位为哈希地址。通常在选定哈希函数时不一定能知道关键字的全部情况，取其中的哪几位也不一定合适，而一个数平方后的中间几位数和数的每一位都相关，由此使随机分布的关键字得到的哈希地址也是随机的。取的位数由表长决定。

（5）折叠法

思想：将关键字分割成位数相同的几部分（最后一部分的位数可以不同），然后取这几部分的叠加和（舍去进位）作为哈希地址。

四、解决哈希冲突的方法

（1）开放地址法

开放地址的基本思想是在发生冲突时，按照某种方法继续探测基本表中的其他存储单元，直到找到空位置为止。

增量di可以有不同的取法：

1、di = 1, 2, 3, ... , m-1；线性探测再散列

2、di = 1^2, -1^2, 2^2, -2^2, 3^2，…，±（k)^2，(k<=m/2）；二次探测再散列；

3、di = 伪随机数；伪随机再散列

（2）链地址法

将所有具有相同哈希地址的记录放在同一单链表中，哈希表的第i个元素存放哈希地址为i的记录组成的单链表的头指针。

（3）建立一个公共溢出区

一旦产生冲突，均把当前记录放入公共溢出区的当前表尾。

猜你喜欢