Java集合之ArrayList详解

简介

ArrayList是一个数组队列,相当于动态数组。与Java中的数组相比,它的容量能动态增长。

ArrayList类声明如下:

public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable

它继承于AbstractList,实现了List、RandomAccess、Cloneable、 Serializable等接口。

ArrayList不是线程安全的,只能用在单线程环境下,多线程环境下可以考虑用Collections.synchronizedList(List l)函数返回一个线程安全的ArrayList类,也可以使用concurrent并发包下的CopyOnWriteArrayList类。

ArrayList实现了RandmoAccess接口,即提供了随机访问功能。RandomAccess是java中用来被List实现,为List提供快速访问功能的。在ArrayList中,我们可以通过元素的序号快速获取元素对象,这就是快速随机访问;实现了Cloneable接口,能被克隆;实现了Serializable接口,因此它支持序列化,能够通过序列化传输。

ArrayList源码详解

ArrayList内部通过一个Object数组来存储数据:

transient Object[] elementData;

ArrayList使用size变量来表示实际存储的元素个数:

private int size;

ArrayList有以下三个构造方法:

// 根据initialCapacity来创建具有指定初始容量的ArrayList
public ArrayList(int initialCapacity)
// 创建一个默认的ArrayList
public ArrayList()
// 根据其他集合来创建ArrayList
public ArrayList(Collection<? extends E> c)

我们来详细看一下这三个构造方法:

扫描二维码关注公众号,回复: 1574956 查看本文章
public ArrayList(int initialCapacity) {
    // 创建指定初始容量的ArrayList
    if (initialCapacity > 0) {
        this.elementData = new Object[initialCapacity];
    }
    // 初始化容量指定为0,则用EMPTY_ELEMENTDATA数组
    else if (initialCapacity == 0) {
        this.elementData = EMPTY_ELEMENTDATA;
    }
    // 否则,抛出IllegalArgumentException异常
    else {
        throw new IllegalArgumentException("Illegal Capacity: "+
                                            initialCapacity);
    }
}

EMPTY_ELEMENTDATA定义如下(即长度为0的Object数组):

private static final Object[] EMPTY_ELEMENTDATA = {};
public ArrayList() {
    // 默认ArrayList的内部数组是DEFAULTCAPACITY_EMPTY_ELEMENTDATA
    this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
}

DEFAULTCAPACITY_EMPTY_ELEMENTDATA声明如下:

private static final Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {};

DEFAULTCAPACITY_EMPTY_ELEMENTDATA和EMPTY_ELEMENTDATA是一样的,都是定义为了长度为0的Object数组,那它们有什么区别呢?它们两个的主要区别在于添加第一个元素时,若elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA ,则程序会将其扩充为容量为DEFAULT_CAPACITY的数组,DEFAULT_CAPACITY定义为10,即通过默认的构造方法创建的ArrayList的初始容量是10。我们后面会详细介绍数组的扩容。

public ArrayList(Collection<? extends E> c) {
    elementData = c.toArray();
    if ((size = elementData.length) != 0) {
        // 通过反射获取数组类型,判定c.toArray类型是否为Object[]类型
        if (elementData.getClass() != Object[].class)
            elementData = Arrays.copyOf(elementData, size, Object[].class);
    } else {
        // 若c为空,则内部数组为EMPTY_ELEMENTDATA
        this.elementData = EMPTY_ELEMENTDATA;
    }
}

我们下面主要来看一看ArrayList的add和remove方法。

add方法

ArrayList有两个重载的Add方法:

// 在数组elementData尾部添加一个元素
public boolean add(E e)
// 在数组elementData指定位置index处添加元素
public void add(int index, E element)
add(E e)方法

我们先来看add(E e)方法,源码如下:

// 在数组elementData尾部添加一个元素
public boolean add(E e) {
    // 容量大小判断
    ensureCapacityInternal(size + 1);  // Increments modCount!!
    elementData[size++] = e;
    return true;
}

该方法首先要判断elementData数组的容量是否能够容纳新的元素,若不能,则需要进行扩容操作,然后将元素e放置在数组的size位置。ensureCapacityInternal(int)方法源码如下:

private void ensureCapacityInternal(int minCapacity) {
    // 若elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA
    if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
        // minCapacity = max(10, minCapacity)
        minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
    }
    // 针对数组最小容量,决定是否扩容
    ensureExplicitCapacity(minCapacity);
}

我们前面讲到的DEFAULTCAPACITY_EMPTY_ELEMENTDATA,在这里就起到作用了,若elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA,则会将数组的最小容量设置为10。然后通过ensureExplicitCapacity(int)方法来判断是否要扩容:

private void ensureExplicitCapacity(int minCapacity) {
    // 增加修改次数
    modCount++;

    // overflow-conscious code
    // 增加元素后,ArrayList中要存储的元素个数为minCapacity
    // 若此时minCapacity > elementData原始的容量,则要按照minCapacity进行扩容
    if (minCapacity - elementData.length > 0)
        grow(minCapacity);
}

扩容的最终操作是通过grow(int)方法来实现的:

private void grow(int minCapacity) {
    // overflow-conscious code
    // 获取elementData的原始容量
    int oldCapacity = elementData.length;
    // 计算新的容量
    // 若原数组长度为偶数,那么新数组长度就恰好是原数组长度的1.5倍
    // 若原数组长度为奇数,那么新数组长度就恰好是原数组长度的1.5倍 - 1
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    // 若按照1.5倍进行扩容后,capacity仍然比实际需要的小,则新容量更改为实际需要的大小,即minCapacity
    if (newCapacity - minCapacity < 0)
        newCapacity = minCapacity;
    // 如果新数组的长度比虚拟机能够提供给数组的最大存储空间大,则将新数组长度更改为最大正数:Integer.MAX_VALUE
    if (newCapacity - MAX_ARRAY_SIZE > 0)
        newCapacity = hugeCapacity(minCapacity);
    // minCapacity is usually close to size, so this is a win:
    // 按照新的容量newCapacity创建一个新数组,然后再将原数组中的内容copy到新数组中
    elementData = Arrays.copyOf(elementData, newCapacity);
}

扩容函数整体比较好理解,需要注意的是,若新容量过大,则会通过hugeCapacity(int)方法来进行容量判断:

private static int hugeCapacity(int minCapacity) {
    // minCapacity < 0则表明数组容量已经超过了虚拟机所能表示的最大容量,抛出OutOfMemoryError
    if (minCapacity < 0) // overflow
        throw new OutOfMemoryError();
    // 否则,若minCapacity > MAX_ARRAY_SIZE,则数组容量为Integer.MAX_VALUE,否则为MAX_ARRAY_SIZE(Integer.MAX_VALUE - 8)
    return (minCapacity > MAX_ARRAY_SIZE) ?
        Integer.MAX_VALUE :
        MAX_ARRAY_SIZE;
}
add(int index, E element)方法

add(int index, E element)方法源码如下:

public void add(int index, E element) {
    // 判断下标index的合法性
    rangeCheckForAdd(index);

    // 数组容量判断
    ensureCapacityInternal(size + 1);  // Increments modCount!!
    // 数组拷贝,将index到末尾的元素拷贝到index + 1到末尾的位置,将index的位置留出来
    System.arraycopy(elementData, index, elementData, index + 1,
                        size - index);
    elementData[index] = element;
    size++;
}

该方法与add(E e)方法类似,只是元素的插入位置不同,该方法需要调用rangeCheckForAdd(int)方法来对index进行合法检验:

private void rangeCheckForAdd(int index) {
    if (index > size || index < 0)
        throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
}
若index下标不合法,则抛出IndexOutOfBoundsException异常。

remove方法

remove方法在ArrayList中同样有两种实现方式:

// 根据index下标删除元素
public E remove(int index)
// 根据元素删除
public boolean remove(Object o)

我们先看remove(int index)方法。

remove(int index)方法

remove(int index)方法源码如下:

public E remove(int index) {
    // 下标合法性检验
    rangeCheck(index);

    // 修改次数加1
    modCount++;
    // 获取旧的元素值
    E oldValue = elementData(index);

    // 计算需要移动的元素个数
    int numMoved = size - index - 1;
    // 将元素向前移动
    if (numMoved > 0)
        System.arraycopy(elementData, index+1, elementData, index,
                            numMoved);
    // 将最后的元素值设置为null
    elementData[--size] = null; // clear to let GC do its work

    return oldValue;
}

这里需要注意一点的就是rangeCheck(int)方法:

private void rangeCheck(int index) {
    // 若index下标超出size,则抛出IndexOutOfBoundsException异常
    if (index >= size)
        throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
}

这里只判断了index超出了size,而不需要判断index为负数的情况,这是为什么呢?

因为该方法总是在访问数组之前被调用,在访问数组时,会对下标为负数进行判断,如果index为负数,则会抛出ArrayIndexOutOfBoundsException异常,所以在这里就没有必要判断了,避免冗余。

remove(Object o)方法

remove(Object o)方法源码如下:

public boolean remove(Object o) {
    // 若删除的元素为null
    if (o == null) {
        for (int index = 0; index < size; index++)
            // 若数组元素为null,则调用fastRemove方法快速删除
            if (elementData[index] == null) {
                fastRemove(index);
                return true;
            }
    } 
    // 若删除的元素不为null
    else {
        for (int index = 0; index < size; index++)
            // 找到要删除的元素,调用fastRemove方法快速删除
            if (o.equals(elementData[index])) {
                fastRemove(index);
                return true;
            }
    }
    return false;
}

ArrayList删除元素时,是分为元素为null和不为null两种方式来判断的,这也说明ArrayList允许添加null元素;同时,如果这个元素在ArrayList中存在多个,则只会删除最先出现的那个。

删除元素,采用了fastRemove(int)方法来快速删除:

private void fastRemove(int index) {
    // 修改次数加1
    modCount++;
    // 计算需要移动的元素数目
    int numMoved = size - index - 1;
    // 将index之后的元素向前移动一位
    if (numMoved > 0)
        System.arraycopy(elementData, index+1, elementData, index,
                            numMoved);
    // 将数组最后一位置为null
    elementData[--size] = null; // clear to let GC do its work
}

其他相关方法介绍

trimToSize()

trimToSize()源码如下:

public void trimToSize() {
    // 修改次数加1
    modCount++;
    // trim
    if (size < elementData.length) {
        elementData = (size == 0)
            ? EMPTY_ELEMENTDATA
            : Arrays.copyOf(elementData, size);
    }
}

该方法的主要工作就是将数组容量修改为size大小,若size为0,则将数组设置为EMPTY_ELEMENTDATA,否则,通过Arrays.copyOf方法来创建新的数组。

该方法的主要存在意义就是:如果capacity被分配过大,那么可以通过这个方法,将ArrayList实例的capacity的大小修改为数组存储元素的个数,从而缩减ArrayList的存储空间。

contains(Object o)
public boolean contains(Object o) {
    return indexOf(o) >= 0;
}

public int indexOf(Object o) {
    if (o == null) {
        for (int i = 0; i < size; i++)
            if (elementData[i]==null)
                return i;
    } else {
        for (int i = 0; i < size; i++)
            if (o.equals(elementData[i]))
                return i;
    }
    return -1;
}

该方法比较简单,不再解释。

toArray()
public Object[] toArray() {
    return Arrays.copyOf(elementData, size);
}

该方法有可能会抛出java.lang.ClassCastException异常,如果直接用向下转型的方法,将整个ArrayList集合转变为指定类型的Array数组,便会抛出该异常,而如果转化为Array数组时不向下转型,而是将每个元素向下转型,则不会抛出该异常,显然对数组中的元素一个个进行向下转型,效率不高,且不太方便。

toArray(T[] a)
public <T> T[] toArray(T[] a) {
    if (a.length < size)
        // Make a new array of a's runtime type, but my contents:
        return (T[]) Arrays.copyOf(elementData, size, a.getClass());
    System.arraycopy(elementData, 0, a, 0, size);
    if (a.length > size)
        a[size] = null;
    return a;
}

该方法可以直接将ArrayList转换得到的Array进行整体向下转型(转型其实是在该方法的源码中实现的),且从该方法的源码中可以看出,参数a的大小不足时,内部会调用Arrays.copyOf方法,该方法内部创建一个新的数组返回,因此对该方法的常用形式如下:

public static Integer[] toArray(ArrayList<Integer> v) {
    Integer[] array = (Integer[])v.toArray(new Integer[0]);
    return array;
}
Arrays.copyOf()、System.arraycopy()

ArrayList的源码中大量地调用了Arrays.copyof()和System.arraycopy()方法,我们下面深入详解一下这两个方法:

ArrayList中用的比较多的Arrays.copyOf()方法定义如下:

public static <T> T[] copyOf(T[] original, int newLength) {
    return (T[]) copyOf(original, newLength, original.getClass());
}

该方法调用了其重载方法:

public static <T,U> T[] copyOf(U[] original, int newLength, Class<? extends T[]> newType) {
    @SuppressWarnings("unchecked")
    T[] copy = ((Object)newType == (Object)Object[].class)
        ? (T[]) new Object[newLength]
        : (T[]) Array.newInstance(newType.getComponentType(), newLength);
    System.arraycopy(original, 0, copy, 0,
                        Math.min(original.length, newLength));
    return copy;
}

该方法实际上是在其内部又创建了一个长度为newlength的数组,调用System.arraycopy()方法,将原来数组中的元素复制到了新的数组中,下面来看System.arraycopy()方法:

public static native void arraycopy(Object src,  int  srcPos,
                                        Object dest, int destPos,
                                        int length);

该方法被标记了native,调用了系统的C/C++代码,在JDK中是看不到的,但在openJDK中可以看到其源码:

static void pd_conjoint_oops_atomic(oop* from, oop* to, size_t count) {
  // Do better than this: inline memmove body  NEEDS CLEANUP
  if (from > to) {
    while (count-- > 0) {
      // Copy forwards
      *to++ = *from++;
    }
  } else {
    from += count - 1;
    to   += count - 1;
    while (count-- > 0) {
      // Copy backwards
      *to-- = *from--;
    }
  }
}

JVM源码主要思想就是,创建一个新的数组,然后通过上述方法将原数组的数据移动到新数组中。从注释中可以看到,这种实现方式要优于C语言的memmove()方法,因为memmove()方法还需要进行内存清理工作。

该方法可以保证同一个数组内元素的正确复制和移动,比一般的复制方法的实现效率要高很多,很适合用来批量处理数组。Java强烈推荐在复制大量数组元素时用该方法,以取得更高的效率。

fail-fast机制

在ArrayList的源码中,我们经常会看到modCount++这样的代码,其实,modCount是用来实现fail-fast机制的,fail-fast机制是Java集合中的一种错误机制,当多个线程对同一个集合的内容进行操作时,就会发生fail-fast时间,它是一种错误检测机制,只能被用来检测错误,因为JDK并不一定保证fail-fast机制一定会发生。fail-fast机制会尽最大努力来抛出ConcurrentModificationException异常。

fail-fast机制产生的最初原因是在于程序在对Collection进行迭代时,某个线程对该Collection的结构进行了修改。这时迭代器会抛出ConcurrentModificationException异常,从而产生fail-fast事件。如果单线程违法了规则,也同样会抛出此异常。

迭代器在调用next()、remove()等方法时都要调用checkForComodification()方法:

final void checkForComodification() {
    if (modCount != expectedModCount)
        throw new ConcurrentModificationException();
}

该方法主要是检测modCount是否等于expectedModCount,若不等于,则抛出ConcurrentModificationException异常。

在创建迭代器时,会将modCount的值赋给expectedModCount,所以在迭代期间,expectedModCount不会改变,在ArrayList中,无论add、remove还是clear方法,只要改变了ArrayList的元素个数,都会导致modCount改变,从而可能导致fail-fast产生。

fail-fast解决方案

1、在遍历过程中,所有涉及到改变modCount的地方全部加上synchronized或直接使用Collections.SynchronizedList。但不推荐该方案,因为增删产生的同步锁可能会阻塞遍历操作。

2、使用CopyOnWriteArrayList来替换ArrayList,比较推荐该方案。

CopyOnWriteArrayList是 ArrayList的一个线程安全的变体,其中所有可变操作(add、remove等)都是通过对底层数组的一次复制来进行操作的,在以下情况很适用:

  • 在不能或不想进行同步遍历,但是又需要从并发中消除冲突时;
  • 遍历操作的数量大大超过了可变操作的数量,即读多写少时。

CopyOnWriteArrayList在copy的数组上进行修改,这样就不会影响原数组中的数据,修改完之后,改变原有数据的引用即可。

对CopyOnWriteArrayList采用了一种读写分离的思想,对CopyOnWriteArrayList进行读取操作不需要加锁。但它存在以下缺点:

  • 因为要复制一份底层数组,所以内存占用比较多;
  • CopyOnWriteArrayList只能保证数据的最终一致性,不能保证数据的实时一致性。

所以,编写程序时,要进行权衡利弊来选择合适的数据结构。

猜你喜欢

转载自blog.csdn.net/qq_38293564/article/details/80656483