List相关源码分析

最近刚好有时间，整理了下List集合相关。

在平常开发中，但凡看到一组数据，我们都习惯尝试用List，似乎List已经无所不能。今天研究List下子类的源码，让我们了解平常使用List时应该注意的地方，提高一定的效率。

开始

首先是关于ArrayList、LinkedList和Vector的继承关系，如下：

在源码中Vector、LinkedList、ArrayList同时实现了List，但其父类AbstractList已经实现了List，在UML中就不体现了。

先看下ArrayList的源码

构造方法

   ...
   
   private static final Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {};
   
   ...
 
   public ArrayList(int initialCapacity) {
        if (initialCapacity > 0) {
            this.elementData = new Object[initialCapacity];
        } else if (initialCapacity == 0) {
            this.elementData = EMPTY_ELEMENTDATA;
        } else {
            throw new IllegalArgumentException("Illegal Capacity: "+
                                               initialCapacity);
        }
    }

    public ArrayList() {
        this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
    }

可以看出当我们在Java代码中调用List<String> strList = new ArrayList<>();时，其ArrayList内部是使用了一个长度为0的Object数组来当我们List元素的容器。扩容规则，我们可以看下Add/Remove方法：

Add方法

   public boolean add(E e) {
        ensureCapacityInternal(size + 1);  // Increments modCount!!
        elementData[size++] = e;
        return true;
    }

    ...

    private void ensureCapacityInternal(int minCapacity) {
        if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
            minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
        }
        ensureExplicitCapacity(minCapacity);
    }

    private void ensureExplicitCapacity(int minCapacity) {
        modCount++;
        // overflow-conscious code
        if (minCapacity - elementData.length > 0)
            grow(minCapacity);
    }

    ... 
  
    private void grow(int minCapacity) {
        // overflow-conscious code
        int oldCapacity = elementData.length;
        int newCapacity = oldCapacity + (oldCapacity >> 1);
        if (newCapacity - minCapacity < 0)
            newCapacity = minCapacity;
        if (newCapacity - MAX_ARRAY_SIZE > 0)
            newCapacity = hugeCapacity(minCapacity);
        // minCapacity is usually close to size, so this is a win:
        elementData = Arrays.copyOf(elementData, newCapacity);
    }

可以看到当我们在Add元素的时候，ArrayList内部会先对Object数组容器做一次容量判断，确定是否扩容。新的长度 int newCapacity = oldCapacity + (oldCapacity >> 1);右移一位即相当于除以2，所以新长度为之前长度的1.5倍。addAll及add重载的方法都长的差不多，就不重复介绍了。

Remove方法

  public E remove(int index) {
        if (index >= size)
            throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
        modCount++;
        E oldValue = (E) elementData[index];
        int numMoved = size - index - 1;
        if (numMoved > 0)
            System.arraycopy(elementData, index+1, elementData, index,
                             numMoved);
        elementData[--size] = null; // clear to let GC do its work
        return oldValue;
  }

remove移除是通过，将要移除位后面的元素全部向前移动一位，再最后一位置为null，最后长度减1。可以看出数组的长度并没有变动，只是将List的Size字段减1。

removeAll和removeXXX等重载方法都差不多，就不多介绍了。

Clear方法

  public void clear() {
        modCount++;
        // clear to let GC do its work
        for (int i = 0; i < size; i++)
            elementData[i] = null;
        size = 0;
  }

Clear方法是直接将元素置为null，所以在很多复用List的时候，我们可以优先考虑clear，而不是直接重新new一个ArrayList。

再看和ArrayList相近的Vector

之所有相近，是因为Vector的源码和ArrayList基本相同。特别之处在于Vector对于数据操作相关的方法都加上了synchronized方法锁，在平常我们也将Vector称为线程安全的ArrayList。

依次比较上方ArrayList分析的方法：

构造方法：相同的代码就不贴了，Vector有些扩展，多了一个重载的构造方法：

  public Vector(int initialCapacity, int capacityIncrement) {
        super();
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal Capacity: "+
                                               initialCapacity);
        this.elementData = new Object[initialCapacity];
        this.capacityIncrement = capacityIncrement;
  }

capacityIncrement在grow时用上，看下面：

  private void grow(int minCapacity) {
        // overflow-conscious code
        int oldCapacity = elementData.length;
        int newCapacity = oldCapacity + ((capacityIncrement > 0) ?
                                         capacityIncrement : oldCapacity);
        if (newCapacity - minCapacity < 0)
            newCapacity = minCapacity;
        if (newCapacity - MAX_ARRAY_SIZE > 0)
            newCapacity = hugeCapacity(minCapacity);
        elementData = Arrays.copyOf(elementData, newCapacity);
  }

在相比较ArrayList的时候，newCapacity 规则有点变化，在我们使用Vector独有的构造方法，即capacityIncrement不为0下，数组长度增加量被定死为capacityIncrement，否则增加为之前的2倍，ArrayList是1.5倍，区别倒是不大。

Add方法：

Vector多了addElement方法，和add方法代码相同，只是没有返回值。和ArrayList的add基本类似。

    public synchronized boolean add(E e) {
        modCount++;
        ensureCapacityHelper(elementCount + 1);
        elementData[elementCount++] = e;
        return true;
    }

Remove方法：和ArrayList的remove基本类似。

最后LinkedList

构造方法：

构造方法上并没有什么特别的：

   ...

   public LinkedList() {
   }

   public LinkedList(Collection<? extends E> c) {
       this();
       addAll(c);
   }

   ...

Add方法：

   ...

   public boolean add(E e) {
        linkLast(e);
        return true;
    }

   ...

   void linkLast(E e) {
        final Node<E> l = last;
        final Node<E> newNode = new Node<>(l, e, null);
        last = newNode;
        if (l == null)
            first = newNode;
        else
            l.next = newNode;
        size++;
        modCount++;
    }

   ...

LinkedList同时开放了addFirst和addList方法

   public void addFirst(E e) {
        linkFirst(e);
   }

   public void addLast(E e) {
        linkLast(e);
   }

   private void linkFirst(E e) {
        final Node<E> f = first;
        final Node<E> newNode = new Node<>(null, e, f);
        first = newNode;
        if (f == null)
            last = newNode;
        else
            f.prev = newNode;
        size++;
        modCount++;
   }

看到以上，我们发现，LinkedList就是数据结构中的线性表的概念，具体我们看下Node这个Class：

  private static class Node<E> {
        E item;
        Node<E> next;
        Node<E> prev;

        Node(Node<E> prev, E element, Node<E> next) {
            this.item = element;
            this.next = next;
            this.prev = prev;
        }
  }

Node含有：一个前驱和一个后继，再加上数据E。

在addLast中，可以看出其操作是将尾节点的后继修改为我们新加入的元素，再把新接入的元素置为尾节点。addFirst同理。

Remove方法：

remove典型的有remove、removeFirst、removeLast方法。

   ...

   public boolean remove(Object o) {
        if (o == null) {
            for (Node<E> x = first; x != null; x = x.next) {
                if (x.item == null) {
                    unlink(x);
                    return true;
                }
            }
        } else {
            for (Node<E> x = first; x != null; x = x.next) {
                if (o.equals(x.item)) {
                    unlink(x);
                    return true;
                }
            }
        }
        return false;
    }

    ...

    public E removeFirst() {
        final Node<E> f = first;
        if (f == null)
            throw new NoSuchElementException();
        return unlinkFirst(f);
    }
    public E removeLast() {
        final Node<E> l = last;
        if (l == null)
            throw new NoSuchElementException();
        return unlinkLast(l);
    }

    ...

再看下unlink相关方法：

    private E unlinkFirst(Node<E> f) {
        // assert f == first && f != null;
        final E element = f.item;
        final Node<E> next = f.next;
        f.item = null;
        f.next = null; // help GC
        first = next;
        if (next == null)
            last = null;
        else
            next.prev = null;
        size--;
        modCount++;
        return element;
    }

    private E unlinkLast(Node<E> l) {
        // assert l == last && l != null;
        final E element = l.item;
        final Node<E> prev = l.prev;
        l.item = null;
        l.prev = null; // help GC
        last = prev;
        if (prev == null)
            first = null;
        else
            prev.next = null;
        size--;
        modCount++;
        return element;
    }

    E unlink(Node<E> x) {
        // assert x != null;
        final E element = x.item;
        final Node<E> next = x.next;
        final Node<E> prev = x.prev;
        if (prev == null) {
            first = next;
        } else {
            prev.next = next;
            x.prev = null;
        }
        if (next == null) {
            last = prev;
        } else {
            next.prev = prev;
            x.next = null;
        }
        x.item = null;
        size--;
        modCount++;
        return element;
    }

unlinkFirst和unlinkLast都是unlink的在头部及尾部的简化，我们直接看unlink方法。unlink操作和我们在数据结构中“链表删除一个元素”的概念一模一样，即找到要删除元素的前驱和后继，将前驱所在节点的后继修改为当前元素的后继；将后继所在节点的前驱修改为当前元素的前驱。这样链表就重新完整了。整个删除过程，无需遍历或者动到其它无关的节点，这个也是线性表最大的优势。

总结：

1、在选择List的时候，和之前的认识差不多：对于要求有序、查找要求高的集合，推荐使用ArrayList，当然对于确定长度的，还推荐直接使用数组，毕竟ArrayList也是使用数组来实现的；对于增删频率高的集合，推荐使用LinkedList。

2、从另一个角度理解ArrayList，即对数组进行了合理的封装，支持动态扩容。

3、在考虑到线程安全时，可以使用Vector。

4、在使用ArrayList及Vector时注意数组的长度，在一定情况下，如果知道数组的长度，我们可以在初始化就传入数组长度的参数，减少一定的开销。

猜你喜欢