数据结构与算法分析：（二）数组

一、前言

这一篇我们来讲一下数组这种数据结构，相信大家在项目中也经常用到数组，数组是一种最基础的数据结构。虽然数组简单，但是设计者最初的想法你是否真正的了解呢？

那么问题来了，什么是数组？我们先给出定义：数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。

讲数组之前，我们先来回顾下线性表与非线性表。

1、线性表

顾名思义，线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。其实除了数组，链表、队列、栈等也是线性表结构。
在这里插入图片描述

2、非线性表

比如二叉树、堆、图等。之所以叫非线性，是因为，在非线性表中，数据之间并不是简单的前后关系。

在这里插入图片描述

3、连续的内存空间和相同类型的数据

正是因为有 连续的内存空间和相同类型的数据 的两个限制，数组具有以下特点：

优点：支持随机访问，根据下标随机访问的时间复杂度为 O(1)。
缺点：插入、删除低效；为了保证其连续性，就需要做大量的数据搬移工作。

二、随机访问

我们先来说说数组的有点——随机访问。

我们拿一个长度为 10 的 int 类型的数组 int[] a = new int[10] 来举例。在我画的这个图中，计算机给数组 a[10]，分配了一块连续内存空间 1000～1039，其中，内存块的首地址为 base_address = 1000。

在这里插入图片描述

我们知道，计算机会给每个内存单元分配一个地址，计算机通过地址来访问内存中的数据。当计算机需要随机访问数组中的某个元素时，它会首先通过下面的寻址公式，计算出该元素存储的内存地址：

a[i]_address = base_address + i * data_type_size

那二维数组的内存寻址你知道吗？

对于 m * n 的数组，a [ i ][ j ] (i < m,j < n)的地址为：
a[i]_address = base_address + ( i * n + j) * type_size

其中 data_type_size 表示数组中每个元素的大小。我们举的这个例子里，数组中存储的是 int 类型数据，所以 data_type_size 就为 4 个字节。这个公式非常简单，我就不多做解释了。

像我们在面试的时候，经常会被问到这样一个面试题：数组和链表的区别是啥？
我们经常会这样回答：“链表适合插入、删除，时间复杂度 O(1)；数组适合查找，查找时间复杂度为 O(1)”。

实际上，这种表述是不准确的。数组是适合查找操作，但是查找的时间复杂度并不为 O(1)。即便是排好序的数组，你用二分查找，时间复杂度也是 O(logn)。所以，正确的表述应该是，数组支持随机访问，根据下标随机访问的时间复杂度为 O(1)。

三、低效的插入与删除

上面我们讲到数组为了保持内存数据的连续性，会导致插入、删除这两个操作比较低效。

1、插入操作

假设数组的长度为 n，现在，如果我们需要将一个数据插入到数组中的第 k 个位置。为了把第 k 个位置腾出来，给新来的数据，我们需要将第 k～n 这部分的元素都顺序地往后挪一位。那插入操作的时间复杂度是多少呢？

我们还是以上一篇的学的复杂度来分析：

最坏情况： 如果在数组的末尾插入元素，那就不需要移动数据了，这时的时间复杂度为 O(1)。
最好情况： 如果在数组的开头插入元素，那所有的数据都需要依次往后移动一位，所以最坏时间复杂度是 O(n)。
平均情况： 因为我们在每个位置插入元素的概率是一样的，所以平均情况时间复杂度为 (1+2+…n)/n= (n*(n+1)/2) * (1/n)=O(n)。

2、删除操作

跟插入数据类似，如果我们要删除第 k 个位置的数据，为了内存的连续性，也需要搬移数据，不然中间就会出现空洞，内存就不连续了。

和插入类似，如果删除数组末尾的数据，则最好情况时间复杂度为 O(1)；如果删除开头的数据，则最坏情况时间复杂度为 O(n)；平均情况时间复杂度也为 O(n)。

实际上，在某些特殊场景下，我们并不一定非得追求数组中数据的连续性。如果我们将多次删除操作集中在一起执行，删除的效率是不是会提高很多呢？

我们继续来看例子。数组 a[10]中存储了 8 个元素：a，b，c，d，e，f，g，h。现在，我们要依次删除 a，b，c 三个元素。

在这里插入图片描述

为了避免 d，e，f，g，h 这几个数据会被搬移三次，我们可以先记录下已经删除的数据。每次的删除操作并不是真正地搬移数据，只是记录数据已经被删除。当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作，这样就大大减少了删除操作导致的数据搬移。

这不就是 JVM 中大名鼎鼎的标记清除垃圾回收算法吗？是的，你没看错，核心思想如出一辙。

关于垃圾回收算法不太了解的可以看这一篇：垃圾收集算法

大多数主流虚拟机采用可达性分析算法来判断对象是否存活，在标记阶段，会遍历所有 GC ROOTS，将所有 GC ROOTS 可达的对象标记为存活。只有当标记工作完成后，清理工作才会开始。

四、容器能否完全替代数组？

针对数组类型，很多语言都提供了容器类，比如 Java 中的 ArrayList、C++ STL 中的 vector。在项目开发中，什么时候适合用数组，什么时候适合用容器呢？

我是搞 Java 的，这里我就拿我们几乎每天都要用到的容器类——ArrayList。那它与数组相比，到底有哪些优势呢？

ArrayList 的优势有：

可以将很多数组操作的细节封装起来；比如前面提到的数组插入、删除等操作
支持动态扩容

1、ArrayList 完全不需要关心底层的扩容逻辑，ArrayList 已经帮我们实现好了。每次存储空间不够的时候，它都会将空间自动扩容为 1.5 倍大小。

2、扩容操作涉及内存申请和数据搬移，是比较耗时的。所以，如果事先能确定需要存储的数据大小，最好在创建 ArrayList 的时候事先指定数据大小。

3、Java ArrayList 无法存储基本类型，比如 int、long，需要封装为 Integer、Long 类，而 Autoboxing、Unboxing 则有一定的性能消耗，所以如果特别关注性能，或者希望使用基本类型，就可以选用数组。

4、如果数据大小事先已知，并且对数据的操作非常简单，用不到 ArrayList 提供的大部分方法，也可以直接使用数组。

5、当要表示多维数组时，用数组往往会更加直观。比如 Object[][] array；而用容器的话则需要这样定义：ArrayList<ArrayList > array。

总结一下，对于业务开发，直接使用容器就足够了，省时省力。毕竟损耗一丢丢性能，完全不会影响到系统整体的性能。但如果你是做一些非常底层的开发，比如开发网络框架，性能的优化需要做到极致，这个时候数组就会优于容器，成为首选。

riemann_

发布了386 篇原创文章 · 获赞 313 · 访问量 21万+

私信关注