深入理解HashMap(一)

目录
导读
(一)定义及构造函数
1.1 什么是HashMap?
1.2 HashMap的成员变量
1.3 HashMap的四个构造函数
1.3.1 容量是什么
1.3.2 加载因子
1.3.3 扩容临界点
(二)HashMap的数据结构
2.1 Entry数组
(三)HashMap的存储实现put方法
3.1 实现过程简介
3.2 hash()详解
3.2.1 hash算法与扰动函数
3.3 Java中的hashcode、equals、==
3.4 如何让数据在table数组中均匀分布
3.4.1 均匀分布的必要性
3.4.2 取模与取余的区别
3.5 addEntry方法
3.5.1 链表的产生
3.5.2 扩容问题
3.6 总结
3.6.1 put方法的几个关键步骤
(四)HashMap的读取实现get方法

(五)HashMap键的遍历


导读
我们都知道,数组是在内存当中连续开辟的一段空间,这样只要知道了数组的首位地址,在数组当中寻找某一元素将会非常容易,时间复杂度为O(1),但是插入和删除则需要O(n);而链表呢,在内存当中是离散的,依靠结点之间的指向,来储存一组数据元素,这样插入和删除操作就很方便,复杂度为O(1),但是查询就非常费时,需要O(n)。这样HashMap就应运而生,将数组和链表的优势相结合,无论寻址、删除、插入都变的很快了。
这篇文章介绍的是Java8以前的HashMap对于Java8中关于HashMap的实现方式和变动,会在基于此篇文章之后,另行整理。这篇文章中会全面剖析HashMap中的主要内容,并且会详细介绍其中用到的一些算法思想,尽可能减少另外查询其他资料的情况。

(一)定义及构造函数
1.1什么是HashMap?

public class HashMap<k,v>
	extends AbstractMap<k,v>
	implements Map<k,v>, Cloneable, Serializable</k,v></k,v></k,v>

这是jdk1.7官方文档中HashMap类的定义,可以看出来HashMap继承自AbstractMap,实现了Map接口。其中Map接口定义了键映射到值的规则,而AbstractMap类提供了Map接口的骨干实现,从而减少HashMap实现Map接口的压力。

1.2HashMap的成员变量

int DEFAULT_INITIAL_CAPACITY = 16:默认的初始容量为16 
int MAXIMUM_CAPACITY = 1 << 30:最大的容量为 2 ^ 30 
float DEFAULT_LOAD_FACTOR = 0.75f:默认的加载因子为 0.75f 
Entry< K,V>[] table:Entry类型的数组,HashMap用这个来维护内部的数据结构,它的长度由容量决定 
int size:HashMap的大小 
int threshold:HashMap的极限容量,扩容临界点(容量和加载因子的乘积)

1.3HashMap的四个构造函数

public HashMap():构造一个具有默认初始容量 (16) 和默认加载因子 (0.75) 的空 HashMap 
public HashMap(int initialCapacity):构造一个带指定初始容量和默认加载因子 (0.75) 的空 HashMap 
public HashMap(int initialCapacity, float loadFactor):构造一个带指定初始容量和加载因子的空 HashMap 
public HashMap(Map< ? extends K, ? extends V> m):构造一个映射关系与指定 Map 相同的新 HashMap

1.2和1.3介绍了HashMap的基本结构,其中的成员变量和相关参数的定义含义如下:

1.3.1容量

哈希表中桶的数量,初始容量只是哈希表在创建时的容量,实际上就是Entry< K,V>[] table数组的容量,大小必须为2的n次方(一定是合数),这是一 种非常规的设计,常规的设计是把桶的大小设计为素数。相对来说素数导致冲突的概率要小于合数,具体证明可以参考http://blog.csdn.net/liuqiyao_01/article/details/14475159,Hashtable初始化桶大小为11,就是桶大小设计为素数的应用(Hashtable扩容后不能保证还是素数)。HashMap采用这种非常规设计,主要是为了 在取模和扩容时做优化,同时为了减少冲突,HashMap定位哈希桶索引位置时,也加入了高位参与运算的过程。之后会举例说明使用2的n次方的原因,以便更好的理解取模和避免冲突之类的定义以及他们的关系。

1.3.2加载因子

加载因子是哈希表在其容量自动增加之前可以达到多满的一种尺度,它衡量的是一个散列表的空间的使用程度,负载因子越大表示散列表的装填程度越高,反之愈小。因此如果负载因子越大,对空间的利用更充分,然而后果是查找效率的降低;如果负载因子太小,那么散列表的数据将过于稀疏,对空间造成严重浪费。至于原因在1.3.3中给出了答案,往下看就能更好的理解上面这句话了。

1.3.3扩容临界点

threshold是HashMap所能容纳的最大数据量的Entry(键值对)个数,其实也就是成员变量size(实际数量<=threshold)的最大值。threshold = length(容量) * Load factor(加载因子)。也就是说,在数组定义好长度之后,负载因子越大,所能容纳的键值对个数越多。
结合负载因子的定义公式可知,threshold就是在此Load factor和length(数组长度)对应下允许的最大元素数目,超过这个数目就重新resize(扩容),扩容后的HashMap容量是之前容量的两倍。默认的负载因子0.75是对空间和时间效率的一个平衡选择,建议大家不要修改,除非在时间和空间比较特殊的情况下,如果内存空间很多而又对时间效率要求很高,可以降低负载因子Load factor的值;相反,如果内存空间紧张而对时间效率要求不高,可以增加负载因子loadFactor的值,这个值可以大于1。

1.4小结

通过以上介绍,对HashMap的定义以及其中的一些变量参数都进行了详细的解释,接下来将分析这些变量和参数在HashnMap中发挥的作用,这里简单提一下,这篇文章中不会详细说明Java8中对HashMap的优化,但是会进行简单引入,以便过渡到深入理解HashMap(二),也就是Java8中对HashMap的优化。
我们必须明确一点,即使负载因子和Hash算法设计的再合理,也免不了会出现拉链过长的情况,一旦出现拉链过长,则会严重影响HashMap的性能。于是,在JDK1.8版本中,对数据结构做了进一步的优化,引入了红黑树。而当链表长度太长(默认超过8)时,链表就转换为红黑树,利用红黑树快速增删改查的特点提高HashMap的性能,其中会用到红黑树的插入、删除、查找等算法。本文不再对红黑树展开讨论,想了解更多红黑树数据结构的工作原理可以参考http://blog.csdn.net/v_july_v/article/details/6105630。

(二)HashMap的数据结构
Java中最常用的两种结构是数组和模拟指针(引用),几乎所有的数据结构都可以利用这两种来组合实现,HashMap也是如此。实际上HashMap是一个“链表散列”,如下是它数据结构:

从上图我们可以看出HashMap底层实现还是数组,只是数组的每一项都是一条链。其中参数initialCapacity就代表了该数组的长度。下面为HashMap构造函数的源码:

public HashMap(int initialCapacity, float loadFactor) {
        //初始容量不能<0
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: "
                    + initialCapacity);
        //初始容量不能 > 最大容量值,HashMap的最大容量值为2^30
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        //负载因子不能 < 0
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: "
                    + loadFactor);
 
        // 计算出大于 initialCapacity 的最小的 2 的 n 次方值。
        int capacity = 1;
        while (capacity < initialCapacity)
            capacity <<= 1;
         
        this.loadFactor = loadFactor;
        //设置HashMap的容量极限,当HashMap的容量达到该极限时就会进行扩容操作
        threshold = (int) (capacity * loadFactor);
        //初始化table数组
        table = new Entry[capacity];
        init();
    } 
可以看到,这个构造函数主要做的事情就是:  
  1.  对传入的 容量 和 加载因子进行判断处理 
  2. 设置HashMap的容量极限 
  3.  计算出大于初始容量的最小 2的n次方作为哈希表table的长度,然后用该长度创建Entry数组(table),这个是最核心的

从源码中可以看出,每次新建一个HashMap时,都会初始化一个table数组。table数组的元素为Entry节点。 Entry[] table是HashMap类中非常重要的字段,即哈希桶数组,明显它是一个Entry的数组。我们来看Entry是何物。

2.1 Entry数组

tatic class Entry<K,V> implements Map.Entry<K,V> {
        final K key;
        V value;
        Entry<K,V> next;
        int hash;


        /**
         * Creates new entry.
         */
        Entry(int h, K k, V v, Entry<K,V> n) {
            value = v;
            next = n;
            key = k;
            hash = h;
        }

Entry为HashMap的内部类,它包含了键key、值value、下一个节点next(该引用指向当前table位置的链表),以及hash值(用来确定每一个Entry链表在table中位置),这是非常重要的,正是由于Entry才构成了table数组的项为链表。


(三)HashMap的存储实现put方法


3.1 实现过程简介

 public V put(K key, V value) {
//如果key为空的情况
if (key == null)
return putForNullKey(value);
//计算key的hash值
int hash = hash(key);
//计算该hash值在table中的下标
int i = indexFor(hash, table.length);
//对table[i]存放的链表进行遍历
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
//判断该条链上是否有hash值相同的(key相同)  
//若存在相同,则直接覆盖value,返回旧value
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}


//修改次数+1
modCount++;
//把当前key,value添加到table[i]的链表中
addEntry(hash, key, value, i);
return null;
}
通过源码我们可以清晰看到HashMap保存数据的过程为:首先判断key是否为null,若为null,则直接调用putForNullKey方法。若不为空则先计算key的hash值,然后根据hash值搜索在table数组中的索引位置,如果table数组在该位置处有元素,则通过比较是否存在相同的key,若存在则覆盖原来key的value,否则将该元素保存在链头(最先保存的元素放在链尾)。若table在该处没有元素,则直接保存。

1、如果为null,则调用putForNullKey:这就是为什么HashMap可以用null作为键的原因,来看看HashMap是如何处理null键的: 
private V putForNullKey(V value) {
//查找链表中是否有null键
for (Entry<K,V> e = table[0]; e != null; e = e.next) {
if (e.key == null) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
//如果链中查找不到,则把该null键插入
addEntry(0, null, value, 0);
return null;
}
关于addEntry方法下面会详细说明。

2、如果链中存在该key,则用传入的value覆盖掉旧的value,同时把旧的value返回:这就是为什么HashMap不能有两个相同的key的原因。
有了这样的介绍,接下来就一一剖析其中的奥妙。

3.2hash()详解
3.2.1 hash算法及tanle索引确定与扰动函数

首先是hash算法,hash算法将对象的hashcode值作为参数,重新进行哈希计算,对于hash操作,最重要也是最困难的就是如何通过确定hash的位置,我们来看看HashMap的
做法: 首先求得key的hash值:hash(key)

final int hash(Object k) {
int h = 0;
if (useAltHashing) {
if (k instanceof String) {
return sun.misc.Hashing.stringHash32((String) k);
}
h = hashSeed;
}


h ^= k.hashCode();
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}

计算该hash值在table中的下标
static int indexFor(int h, int length) {  
return h & (length-1);  
}  


在这里明显可以看到将hashcode进行多次移位后多次异或运算,为什么要这样计算,这里就要提到一个概念,叫做扰动函数,在介绍扰动函数之前,我们先来搞清楚hashmap中的hash算法的过程,另外我们必须要清楚,计算hash的目的是什么,前面提到过,hashmap是数组-链表结构的,为了避免大量的数组对象,即k-v键值对存放在数组中的分布产生过于密集的情况,也就是每个数组元素存放位置上尽量不要产生长链表,使得整个数组表中的空间得到充分利用,也同样避免了大量的链表遍历过程,从而提高效率。正是出于这样的目的,才需要进行数组索引定位,其中定位的算法用到了hash值,关于如何确定索引值,在后面的小节中会详细说明。

现在假设key.hashCode()的值为:0x7FFFFFFF,table.length为默认值16。 
上面算法执行如下:



得到i=15 
其中h^(h>>>7)^(h>>>4) 结果中的位运行标识是把h>>>7 换成 h>>>8来看。 

即最后h^(h>>>8)^(h>>>4) 运算后hashCode值每位数值如下: 

8=8 
7=7^8 
6=6^7^8 
5=5^8^7^6 
4=4^7^6^5^8 
3=3^8^6^5^8^4^7 
2=2^7^5^4^7^3^8^6 
1=1^6^4^3^8^6^2^7^5 
结果中的1、2、3三位出现重复位^运算 
3=3^8^6^5^8^4^7     ->   3^6^5^4^7 
2=2^7^5^4^7^3^8^6   ->   2^5^4^3^8^6 
1=1^6^4^3^8^6^2^7^5 ->   1^4^3^8^2^7^5 
 
算法中是采用(h>>>7)而不是(h>>>8)的算法,应该是考虑1、2、3三位出现重复位^运算的情况。使得最低位上原hashCode的8位都参与了^运算,所以在table.length为默认值16的情况下面,hashCode任意位的变化基本都能反应到最终hash table 定位算法中,这种情况下只有原hashCode第3位高1位变化不会反应到结果中,即:0x7FFFF7FF的i=15。

那么究竟什么是扰动函数呢,这里稍微提一下java8中关于hash值的计算,然后以java8为例,进行解释,因为java8对这个算法进行了简化,其原理相同,也同同样是扰动函数的思想,在java8中hash()方法不再进行四次位运算,而简化成一次:

static final int hash(Object key) {   /
int h;
// h = key.hashCode() 为第一步 取hashCode值
// h ^ (h >>> 16)  为第二步 高位参与运算
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

大家都知道上面代码里的key.hashCode()函数调用的是key键值类型自带的哈希函数,返回int型散列值。理论上散列值是一个int型,如果直接拿散列值作为下标访问HashMap主数组的话,考虑到2进制32位带符号的int表值范围从-2147483648到2147483648。前后加起来大概40亿的映射空间。只要哈希函数映射得比较均匀松散,一般应用是很难出现碰撞的。但问题是一个40亿长度的数组,内存是放不下的。你想,HashMap扩容之前的数组初始大小才16。所以这个散列值是不能直接拿来用的。用之前还要先做对数组的长度取模运算,得到的余数才能用来访问数组下标。源码中模运算是在这个indexFor( )函数里完成的。bucketIndex = indexFor(hash, table.length);
indexFor的代码也很简单,就是把散列值和数组长度做一个"与"操作,
static int indexFor(int h, int length) {
return h & (length-1);
}

顺便说一下,这也正好解释了为什么HashMap的数组长度要取2的整次幂。因为这样(数组长度-1)正好相当于一个“低位掩码”。“与”操作的结果就是散列值的高位全部归零,
只保留低位值,用来做数组下标访问。以初始长度16为例,16-1=15。2进制表示是00000000 00000000 00001111。和某散列值做“与”操作如下,结果就是截取了最低的四位值。

10100101 11000100 00100101
& 00000000 00000000 00001111
----------------------------------
00000000 00000000 00000101    //高位全部归零,只保留末四位

但这时候问题就来了,这样就算我的散列值分布再松散,要是只取最后几位的话,碰撞也会很严重。更要命的是如果散列本身做得不好,分布上成等差数列的漏洞,恰好使最后几个低位呈现规律性重复,就无比蛋疼。这时候“扰动函数”的价值就体现出来了,说到这里大家应该猜出来了。看下面这个图,



右位移16位,正好是32bit的一半,自己的高半区和低半区做异或,就是为了混合原始哈希码的高位和低位,以此来加大低位的随机性。而且混合后的低位掺杂了高位的部分特征,这样高位的信息也被变相保留下来。最后我们来看一下Peter Lawley的一篇专栏文章《An introduction to optimising a hashing strategy》里的一个实验:他随机选取了352个字符串,在他们散列值完全没有冲突的前提下,对它们做低位掩码,取数组下标。

结果显示,当HashMap数组长度为512的时候,也就是用掩码取低9位的时候,在没有扰动函数的情况下,发生了103次碰撞,接近30%。而在使用了扰动函数之后只有92次碰撞。碰撞减少了将近10%。看来扰动函数确实还是有功效的。但明显Java 8觉得扰动做一次就够了,做4次的话,多了可能边际效用也不大,所谓为了效率考虑就改成一次了。

3.3Java中的hashcode、equals、==
这里插入一个小知识点,关于hashcode、equals、==,他们的区别,三者在日常中经常遇到,其中的概念对于像我一样的初学者非常迷惑,经常将他们混淆
java中==、equals()、hashCode()都和对象的比较有关,在java中这三者各有什么用处呢,即java中为什么需要设计这三种对象的比较方法呢?

1、关于==

==是容易理解的。java设计java就是要比较两个对象是不是同一个对象。
对于引用变量而言,比较的时候两个引用变量引用的是不是同一个对象,即比较的是两个引用中存储的对象地址是不是一样的。
对于基本数据类型而言,比较的就是两个数据是不是相等,没什么歧义。
由于对于基本数据类型而言,没有方法,所以不存在equal()和hashCode()的问题,下面的讨论都是针对引用类型而言的。

2、关于equals()
为什么java会设计equals()方法?

==比较的是两个对象是否是同一个对象,这并不能满足很多需求。有时候当两个对象不==的时候,我们仍然会认为两者是“相等”的,比如对于String对象,当两个对象的字符串序列是一直的,我们就认为他们是“相等”的。对于这样的需求,需要equals()来实现。对于有这种需求的对象的类,重写其equals()方法便可,具体的“相等”逻辑可以根据需要自己定义。

需要注意的地方

Object中equals()的默认实现是比较两个对象是不是==,即其和==的效果是相同的。java提供的某些类已经重写了equals()方法。自己写的类,如果需要实现自己的“相等”逻辑,需要重写equals()方法。
   
3、关于hashCode()

为什么会设计hashCode()方法?

hashCode()方法返回的就是一个数值,我们称之为hashCode吧。从方法的名称上就可以看出,其目的是生成一个hash码。hash码的主要用途就是在对对象进行散列的时候作为key 输入,据此很容易推断出,我们需要每个对象的hash码尽可能不同,这样才能保证散列的存取性能。事实上,Object类提供的默认实现确实保证每个对象的hash码不同(在对象的内存地址基础上经过特定算法返回一个hash码)。
分析到这个地方,看似没什么问题,三者的作用很清晰,好像他们之间也没什么关系。在java的规范上,hashCode()方法和equals()方法确实可以没有关系。
但是!!!!!!!!有一个问题。
问题如下:
对于集合类HashSet、HashMap等和hash有关的类(以HashSet为例),是通过hash算法来散列对象的。对HashSet而言,存入对象的流程为:根据对象的hash码,经过hash算法,找到对象应该存放的位置,如果该位置为空,则将对象存入该位置;如果该位置不为空,则使用equals()比较该位置的对象和将要入的对象,如果两个相等,则不再插入,如果不相等,根据hash冲突解决算法将对象插入其他位置。而java规定对于HashSet判断是不是重复对象就是通过equals() 方法来完成,这就需要在两个对象equals()方法相等的时候,hash码一定相等(即hashCode()返回的值相等)。
假设两个对象equals()方法相等的时候,hash码不相等,会出现equals()相等的两个对象都插入了HashSet中,这时不允许的。从而我们有了一下的结论:

结论:对于equals()相等的两个对象,其hashCode()返回的值一定相等

通过上面的分析,对于这个结论是没有异议的。结合前面关于hash码要尽可能不同的要求,现在变成了对于equals()相等的对象hash码要一定相等,而对于equals()不同的对象要尽量做到hash码不同。那么怎么才能保证这一点呢?
答案就是重写hashCode()
首先,如何保证“对于equals()相等的对象hash码要一定相等”。
equals()方法中对于对象的比较是通过比较对象中全部或者部分字段来完成的,这些字段集合记为集合A,如果我们计算hash码的时候,如果只是从集合A中选取部分字段或者全部字段来完成便可,因为输入相同,不管经过什么算法,输出一定相同(在方法中调用随机函数?这属于吃饱了撑的!)。如此设计便保证满足了第一个要求。
其次,对于equals()不同的对象要尽量做到hash码不同。
对于这一点的保证就是在设计一个好的算法,让不同的输入尽可能产生不同的输出。
下面就详细介绍一下如何设计这个算法。这个算法是有现成的参考的,算法的具体步骤就是:
[1]把某个非零常数值(一般取素数),例如17,保存在int变量result中;
[2]对于对象中每一个关键域f(指equals方法中考虑的每一个域):
  [2.1]boolean型,计算(f ? 0 : 1);

  [2.2]byte,char,short型,计算(int)f;

  [2.3]long型,计算(int) (f ^ (f>>>32));

  [2.4]float型,计算Float.floatToIntBits(afloat);

  [2.5]double型,计算Double.doubleToLongBits(adouble)得到一个long,再执行[2.3];

  [2.6]对象引用,递归调用它的hashCode方法;

  [2.7]数组域,对其中每个元素调用它的hashCode方法。

[3]将上面计算得到的散列码保存到int变量c,然后执行 result=37*result+c;

[4]返回result。

其实其思路就是:先去一个基数,然后对于equals()中考虑的每一个域,先转换成整数,再执行result=37*result+c;

3.4 如何让数据在table数组中均匀分布
3.4.1 均匀分布的必要性

对于HashMap的table而言,数据分布需要均匀(最好每项都只有一个元素,这样就可以直接找到),不能太紧也不能太松,太紧会导致查询速度慢,太松则浪费空间。计算hash值后,怎么才能保证table元素分布均与呢?我们会想到取模,但是由于取模的消耗较大,而HashMap是通过&运算符(按位与操作)来实现的:h & (length-1)。其实这里与上面对于hash的介绍内容上有很大重合了,关于最初为什么要让数组的长度为合数,也就是2的n次方的答案,也在扰动函数中做了相关的解释,这里不再一一赘述。

3.4.2取模与取余的区别

这里也插入一个知识点,既然均匀分布用到了取模运算,取模运算是很消耗资源的,所以我们使用了位运算&来解决,那么关于取余和取模有什么关系又有什么区别呢,其实这是一个纯粹的数学问题,一般来说,在大多数情况下,取余和取模在数值上是相同的,这样的情况下,我们也无需去进行区分,但是他们的本质上是完全不同的。
首先,无论取余还是取模,都是除数被除数还有商之间的关系,由于一个数字除以一个数字得到商,这种初等计算的大多数情况我们是不考虑商的结果的,无法整除时,就商到取余数为止,但是不仅可以去余数,我们也可以取模数,这样同样能够表示一个非整除的式子的结果。
先说一下定义,然后结合几个简单的例子说上面的话是什么意思:
对于整数a,b来说,取模运算或者求余运算的方法要分如下两步:
1.求整数商:c=a/b
2.计算模或者余数:r=a-(c*b)
求模运算和求余运算在第一步不同
取余运算在计算商值向0方向舍弃小数位
取模运算在计算商值向负无穷方向舍弃小数位
例如:4/(-3)约等于-1.3
在取余运算时候商值向0方向舍弃小数位为-1
在取模运算时商值向负无穷方向舍弃小数位为-2

3.5addEntry方法

接下来看看计算了hash值,并用该hash值来求得哈希表中的索引值之后,如何把该key-value插入到该索引的链表中: 
首先addEntry方法:

void addEntry(int hash, K key, V value, int bucketIndex) {
//如果size大于极限容量,将要进行重建内部数据结构操作,之后的容量是原来的两倍,并且重新设置hash值和hash值在table中的索引值
if ((size >= threshold) && (null != table[bucketIndex])) {
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
}
//真正创建Entry节点的操作
createEntry(hash, key, value, bucketIndex);
}

void createEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<>(hash, key, value, e);
size++;
}

首先取得bucketIndex位置的Entry头结点,并创建新节点,把该新节点插入到链表中的头部,该新节点的next指针指向原来的头结点 。

3.5.1链表的产生

系统总是将新的Entry对象添加到bucketIndex处。如果bucketIndex处已经有了对象,那么新添加的Entry对象将指向原有的Entry对象,形成一条Entry链,
但是若bucketIndex处没有Entry对象,也就是e==null,那么新添加的Entry对象指向null,也就不会产生Entry链了

3.5.2扩容问题

随着HashMap中元素的数量越来越多,发生碰撞的概率就越来越大,所产生的链表长度就会越来越长,这样势必会影响HashMap的速度,为了保证HashMap的效率,系统必须要在某个临界点进行扩容处理。该临界点在当HashMap中元素的数量等于table数组长度*加载因子。但是扩容是一个非常耗时的过程,因为它需要重新计算这些数据在新table数组中的位置并进行复制处理。所以如果我们已经预知HashMap中元素的个数,那么预设元素的个数能够有效的提高HashMap的性能。

扩容(resize)就是重新计算容量,向HashMap对象里不停的添加元素,而HashMap对象内部的数组无法装载更多的元素时,对象就需要扩大数组的长度,以便能装入更多的元素。当然Java里的数组是无法自动扩容的,方法是使用一个新的数组代替已有的容量小的数组,就像我们用一个小桶装水,如果想装更多的水,就得换大水桶。

void resize(int newCapacity) {   //传入新的容量
     Entry[] oldTable = table;    //引用扩容前的Entry数组
     int oldCapacity = oldTable.length;         
     if (oldCapacity == MAXIMUM_CAPACITY) {  //扩容前的数组大小如果已经达到最大(2^30)了
         threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1),这样以后就不会扩容了
         return;
 }

Entry[] newTable = new Entry[newCapacity];  //初始化一个新的Entry数组
transfer(newTable);                         //!!将数据转移到新的Entry数组里
table = newTable;                           //HashMap的table属性引用新的Entry数组
threshold = (int)(newCapacity * loadFactor);//修改阈值
}

这里就是使用一个容量更大的数组来代替已有的容量小的数组,transfer()方法将原有Entry数组的元素拷贝到新的Entry数组里。
void transfer(Entry[] newTable) {
Entry[] src = table;                   //src引用了旧的Entry数组
int newCapacity = newTable.length;
for (int j = 0; j < src.length; j++) { //遍历旧的Entry数组
Entry<K,V> e = src[j];             //取得旧Entry数组的每个元素
if (e != null) {
src[j] = null;//释放旧Entry数组的对象引用(for循环后,旧的Entry数组不再引用任何对象)
do {
Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity); //!!重新计算每个元素在数组中的位置
e.next = newTable[i]; //标记[1]
newTable[i] = e;      //将元素放在数组上
e = next;             //访问下一个Entry链上的元素
} while (e != null);
}
}
}

newTable[i]的引用赋给了e.next,也就是使用了单链表的头插入方式,同一位置上新元素总会被放在链表的头部位置;这样先放在一个索引上的元素终会被放到Entry链的尾部(如果发生了hash冲突的话),这一点和Jdk1.8有区别,在(二)中将会详解。在旧数组中同一条Entry链上的元素,通过重新计算索引位置后,有可能被放到了新数组的不同位置上。

下面举个例子说明下扩容过程。假设了我们的hash算法就是简单的用key mod 一下表的大小(也就是数组的长度)。其中的哈希桶数组table的size=2,
所以key = 3、7、5,put顺序依次为 5、7、3。在mod 2以后都冲突在table[1]这里了。这里假设负载因子 loadFactor=1,即当键值对的实际大小size 大于 table的实际大小时进行扩容。接下来的三个步骤是哈希桶数组 resize成4,然后所有的Entry重新rehash的过程。
3.6总结

3.6.1put方法的几个关键步骤

  1.  传入key和value,判断key是否为null,如果为null,则调用putForNullKey,以null作为key存储到哈希表中; 
  2.  然后计算key的hash值,根据hash值搜索在哈希表table中的索引位置,若当前索引位置不为null,则对该位置的Entry链表进行遍历,如果链中存在该key,则用传入的value覆盖掉旧的value,同时把旧的value返回,结束; 
  3.  否则调用addEntry,用key-value创建一个新的节点,并把该节点插入到该索引对应的链表的头部
  4. HashMap的读取实现get方法
public V get(Object key) {
        //如果key为null,求null键
        if (key == null)
            return getForNullKey();
        // 用该key求得entry
        Entry<K,V> entry = getEntry(key);


        return null == entry ? null : entry.getValue();
    }


    final Entry<K,V> getEntry(Object key) {
        int hash = (key == null) ? 0 : hash(key);
        for (Entry<K,V> e = table[indexFor(hash, table.length)];
             e != null;
             e = e.next) {
            Object k;
            if (e.hash == hash &&
                ((k = e.key) == key || (key != null && key.equals(k))))
                return e;
        }
        return null;
    }

读取的步骤比较简单,调用hash(key)求得key的hash值,然后调用indexFor(hash)求得hash值对应的table的索引位置,然后遍历索引位置的链表,如果存在key,则把key对应的Entry返回,否则返回null

5HashMap键的遍历

private abstract class HashIterator<E> implements Iterator<E> {
        Entry<K,V> next;        // next entry to return
        int expectedModCount;   // For fast-fail
        int index;              // current slot
        Entry<K,V> current;     // current entry


        //当调用keySet().iterator()时,调用此代码
        HashIterator() {
            expectedModCount = modCount;
            if (size > 0) { // advance to first entry
                Entry[] t = table;
                //从哈希表数组从上到下,查找第一个不为null的节点,并把next引用指向该节点
                while (index < t.length && (next = t[index++]) == null)
                    ;
            }
        }


        public final boolean hasNext() {
            return next != null;
        }


        //当调用next时,会调用此代码
        final Entry<K,V> nextEntry() {
            if (modCount != expectedModCount)
                throw new ConcurrentModificationException();
            Entry<K,V> e = next;
            if (e == null)
                throw new NoSuchElementException();


            //如果当前节点的下一个节点为null,从节点处罚往下查找哈希表,找到第一个不为null的节点
            if ((next = e.next) == null) {
                Entry[] t = table;
                while (index < t.length && (next = t[index++]) == null)
                    ;
            }
            current = e;
            return e;
        }


        public void remove() {
            if (current == null)
                throw new IllegalStateException();
            if (modCount != expectedModCount)
                throw new ConcurrentModificationException();
            Object k = current.key;
            current = null;
            HashMap.this.removeEntryForKey(k);
            expectedModCount = modCount;
        }
    }

从这里可以看出,HashMap遍历时,按哈希表的每一个索引的链表从上往下遍历,由于HashMap的存储规则,最晚添加的节点都有可能在第一个索引的链表中,这就造成了HashMap的遍历时无序的。

关于Java8中对HashMap的优化以及改变,请看《深入理解HashMap(二)》

猜你喜欢

转载自blog.csdn.net/adelaide_guo/article/details/78511932