哈希表详解

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guoweimelon/article/details/50916354

一、哈希表法简介

哈希表(Hash table,也叫散列表),是根据关键字(Key Value)而直接访问在内存存储位置的数据结构。也就是说,它通过计算一个关于键值的函数,将所需查询的数据映射到表中一个位置来访问记录,这加快了查找速度。这个映射函数称做散列函数,存放记录的数组称做散列表。

若关键字为k,则其值存放在f(k)的存储位置上。由此,不需比较便可直接取得所查记录。称这个对应关系f为散列函数,按这个思想建立的表为哈希表。


二、哈希冲突

对不同的关键字可能得到同一散列地址,即k1≠k2,而f(k1)=f(k2),这种现象称为冲突。具有相同函数值的关键字对该散列函数来说称做同义词。


三、构造哈希函数的方法

(1)直接定址法

思想:取关键字或关键字的某个线性函数值为散列地址。即hash(k)=k或hash(k)=ak + b,其中a,b为常数 。

特点:对于不同的关键字不会产生冲突,缺点是由于关键字集合很少是连续的,会造成空间的大量浪费。


(2)除留余数法

思想:取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即hash(k)=k mod p, p≤m。不仅可以对关键字直接取模,也可在折叠法、平方取中法等运算之后取模。

特点:对p的选择很重要,一般取小于m的最大素数,若p选择不好,容易产生冲突。


(3)数字分析法

思想:假设关键字是以r为基的数,并且哈希表中可能出现的关键字都是事先知道的,则可选取关键字的若干数位组成哈希地址。 

特点:需要对关键字进行分析。


(4)平方取中法

思想:取关键字平方后的中间几位为哈希地址。通常在选定哈希函数时不一定能知道关键字的全部情况,取其中的哪几位也不一定合适,而一个数平方后的中间几位数和数的每一位都相关,由此使随机分布的关键字得到的哈希地址也是随机的。取的位数由表长决定。 


(5)折叠法

思想:将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和(舍去进位)作为哈希地址。 


四、解决哈希冲突的方法

(1)开放地址法

开放地址的基本思想是在发生冲突时,按照某种方法继续探测基本表中的其他存储单元,直到找到空位置为止。

增量di可以有不同的取法:

1、di = 1, 2, 3, ... , m-1; 线性探测再散列

2、di = 1^2, -1^2, 2^2, -2^2, 3^2,…,±(k)^2,(k<=m/2);二次探测再散列;

3、di = 伪随机数 ;    伪随机再散列


(2)链地址法

将所有具有相同哈希地址的记录放在同一单链表中,哈希表的第i个元素存放哈希地址为i的记录组成的单链表的头指针。

(3)建立一个公共溢出区

一旦产生冲突,均把当前记录放入公共溢出区的当前表尾。

猜你喜欢

转载自blog.csdn.net/guoweimelon/article/details/50916354