极客算法02 | 数组

为什么数组要从0编号，而不是从1开始呢？

数组的定义：数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。

这个定义里有几个关键词：

第一是线性表。顾名思义，线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。其实除了数组，链表、队列、栈等也是线性表结构。

而与它相对立的概念是非线性表，比如二叉树、堆、图等。之所以叫非线性，是因为在非线性表中，数据之间并不是简单的前后关系。

第二是连续的内存空间和相同类型的数据。正是因为这两个限制，它才有了一个堪称“杀手锏”的特性：“随机访问”。但有利就有弊，这两个限制也让数组的很多操作变得非常低效，比如在数组中插入、删除一个数据，为了保证连续性，需要做大量的数据搬移工作。

数组是如何实现根据下标随机访问数组元素？

我们知道，计算机会给每个内存单元分配一个地址，计算机通过地址来访问内存中数据。当计算机需要随机访问数组中的某个元素时，它会首先通过下面的寻址公式，计算出该元素存储的内存地址：

a[i]_address = base_address + i * data_type_size

其中 data_type_size 表示数组中每个元素的大小。

这里要纠正一个错误，数组适合查找，查找时间复杂度为O(1)的表述是不准确的。

数组是适合查找操作，但是查找的时间复杂度并不为O(1)。即使是排序好的数组，用二分查找，时间复杂度也是O(logn)。所以，正确的表述应该是，数组支持随机访问，根据下标随机访问的时间复杂度为O(1)。

最坏时间复杂度为O(n)，平均时间复杂度为(1+2+…n)/n=O(n)，最好时间复杂度为O(1)

最坏时间复杂度为O(n)，平均时间复杂度为(1+2+…n)/n=O(n)，最好时间复杂度为O(1)

数组越界在 C 语言中是一种未决行为，并没有规定数组访问越界时编译器应该如何处理。因为，访问数组的本质就是访问一段连续内存，只要数组通过偏移计算得到的内存地址是可用的，那么程序就可能不会报任何错误。

相比于数组，java中的ArrayList封装了数组的很多操作，并支持动态扩容。一旦超过容量，扩容时比较耗内存，因为涉及到内存申请和数据搬移。

如果使用 ArrayList，我们就完全不需要关心底层的扩容逻辑，ArrayList 已经帮我们实现好了。每次存储空间不够的时候，它都会将空间自动扩容为 1.5 倍大小。

不过，这里需要注意一点，因为扩容操作涉及内存申请和数据搬移，是比较耗时的。所以，如果事先能确定需要存储的数据大小，最好在创建 ArrayList 的时候事先指定数据大小。

数组适合的场景：

数组从0开始计数：a[k]_address = base_address + k * type_size

数组从1开始计数：a[k]_address = base_address + (k - 1) * type_size （CPU多了一次减法指令）