数据结构之“线性表”
线性表概念
从名字上你就能感觉到,是具有像线一样性质的表。比如一个班级的小朋友,一个接一个排着队,有一个大头,有一个收尾。当中的小朋友每个人都知道他前面一个是谁,他后面一个是谁,这样如同有一根线把他们串联起来。称之为线性表,零个或多个数据元素的有限序列。线性表强调的是有限顺序相连。
用数学语言标示如下:
若将线性表记为(a1,…,ai-1,ai,ai+1,…,an),则表中ai-1领先ai,ai领先于ai+1,称ai-1是ai的直接前驱元素,ai+1是ai的直接后继元素。当i=1,2,…,n-1时,ai有且仅有一个直接后继,当i=2,3,…,n时,ai有且仅有一个直接前驱。如下图:
所以线性表元素的个数n(n>=0) 定义为线性表的长度,当n=0时,则为空表。
线性表的顺序存储结构
顺序存储定义
说了这么多的线性表,我们来看看线性表的两种物理结构的第一种-----顺序存储结构。
线性表的顺序存储结构,指的是用一段地址连续的存储单元依次存储线性表的数据元素。
顺序存储方式
线性表的顺序存储结构,在内存中找了块地方,通过占位的形式,把一定内存空间给占了,然后把相同数据类型的数据元素依次存放在这块空地中。既然线性表每个数据元素的类型都相同,所以可以用C语言的一维数组来实现顺序存储结构,即把第一个数据元素存到数组下标为0的位置中,接着把线性表相邻的元素存储在数组中相邻的位置。
来看看线性表的顺序存储的结构代码
#define MAXSIZE 20 /*存储空间初始化分配量*/
typedef int ELemType;/*ElemType类型根据实际情况而定,这里假设为int*/
typedef struct
{
ElemType data[MAXSIZE];/*数组存储数据元素,最大值为MAXSIZE*/
int length;/*线性表当前长度*/
}Sqlist;
我们发现顺序存储结构需要三个属性:
- 存储空间的起始位置:数组data,它的存储位置就是存储空间的存储位置。
- 线性表的最大存储容量:数组长度MAXSIZE。
- 线性表的当前长度:length。
注意:数组长度与线性表长度的区别
数组长度是存放线性表的存储空间的长度,存储分配后这个量是一般不变的。数组的大小一定不可以变吗?但是一些高级语言,如C++、Java等可以通过编程的手段动态分配数组,不过会有性能上的损耗。
线性表的长度是线性表中数据元素的个数,随着线性表插入和删除操作的进行,这个量是变化的。在任意时刻,线性表的长度应该小于等于数组的长度。
地址计算方法
由于我们数数都是从1开始数的,线性表的定义也不能免俗,起始也是1,可C语言中的数组却是从0开始第一个下标的,于是线性表的第i个元素是存储在数组下标为i-1的位置。如下图:
用数组存储顺序表意味着要分配固定长度的数组空间,由于线性表中可以进行插入和删除操作,因此分配的数组空间要大于等于当前线性表的长度。
其实,内存中的地址,都是有编号的。存储器中的每个存储单元都有自己的编号,这个编号称地址。因为线性表存入和取出的数据就计算时间都是相等的,所以它的存取时间性能为O(1)。我们通常把具有这个特点的存储结构称为随机存取结构。
顺序存储结构的插入与删除
获取元素
对于线性表的顺序存储结构来说,如果我们要实现getElem操作,即将线性表L中的第i个位置的元素返回。就程序而言,只要i的数值在数组下标范围内,就是把数组第i-1下标的值返回即可。C语言代码如下
#define ok 1
#define ERROR 0
#define TRUE 1
#define FALSE 0
typedef int Status;
Status getElem(SqList L,int i,ElemType *e)
{
if(L.lenght= 0 || i<1 || L.length)
return ERROR;
*e = L.data[i-1];
return OK;
}
插入操作
Status insertList(SqList *L,int i,ElemType e)
{
int k;
if (L->length == MAXSIZE)/*顺序线性表已满*/
return ERROR;
if (i<1 || i>L->length+1)/*当i不在范围内时*/
return ERROR;
if (i <= L->length) {
for(k=L=length-1;k>=i-1;k--)
L->data[k+1]= L->data[k];
}
L->data[i-1]=e;/*插入新元素*/
L->length++;
return OK;
}
应该代码不难理解,可以转换为其他语言实现一遍,思路是一样的;
删除操作
删除算法的思路:
- 如果删除位置不合理,抛出异常;
- 取出删除元素;
- 从删除元素位置开始遍历到最后一个元素位置,分别将它们都向前移动一个位置;
- 表长减1;
代码如下:
/**
*初始化条件:顺序线性表L已存在,1<=i<=ListLength
*操作结果:删除L的第i个数据元素,并用e返回其值,L的长度减1
*/
Status delList(SqList *L,int i,ElemType *e)
{
int k;
if (L->length==0)
return ERROR;
if (i<1 || i>L->length)
return ERROR;
*e =L->data[i-1];
if (i<L->length)
{
for(k=i;k<L->length;k++)
L->data[k-1]=L->data[k];
}
L->length--;
return OK;
}
现在我们来分析一下,插入和删除的时间复杂度。
先来看看最好的情况,如果元素要插入到最后一个位置,或者删除最后一个元素,此时时间复杂度为O(1),因为不需要移动元素的,就如同来了一个新人要正常排队,当然是排在最后,如果次数他又不想排了,那么他一个人离开就好,不影响任何人。
最坏的的情况呢,如果元素要插入到第一个位置或者删除第一个元素,此处时间复杂度是O(n),因为所有的人要跟着移动;
至于平均的情况,由于元素插入到第i个位置,或删除第i个元素,需要移动n-i个元素,根据概率原来,每个位置插入或删除元素的可能性是相同的,也就说位置靠前,移动元素多,位置靠后,移动元素少。最终平均移动次数和最中间的那个元素的移动次数相等,为(n-1)/2。根据之前时间推导理论我们可以得知,它的时间复杂度还是O(n)。
总结线性表顺序存储结构的优缺点如下:
优点
- 无须为表示表中元素之间的逻辑关系而增加额外存储空间,因为是前后顺序;
- 可以快速地存取表中任一位置的元素;
缺点
- 插入和删除操作需要移动大量元素;
- 当线性表长度变化较大时,难以确定存储空间容量;
- 造成存储空间的碎片,因为需要提前分配空间。
线性表的链式存储结构
前面我们讲的线性表的顺序存储结构。他是有缺点的,最大的缺点就是插入和删除时需要移动大量元素,这显然就需要耗费时间。能不能想办法解决呢?
答案就是引入链式存储结构。
线性表的链式存储结构的特点是用一组任意的存储单元存储线性表的数据元素,这组存储单元可以是连续的,也可以是不连续的。这就意味着,这些数据元素可以存在内存未被占用的任意位置。
以前顺序结构中,每个数据元素只需要存数据元素就可以了。现在链式结构中,除了要存数据元素信息外,还要存储它的后继元素的存储地址。
为了表示每个数据元素a1与其直接后继数据元素ai+1之间的逻辑关系,对数据元素a1来说,除了存储其本身的信息之外,还需存储一个指示其直接后继的信息(即直接后继的存储位置)。我们把存储数据元素信息的域称为数据域,把存储直接后继位置的域称为指针域。指针域中存储的信息称做指针或链。这两部分信息组成数据元素ai的存储镜像,称为结点(Node)。
n个结点(a1的存储映像)链结成一个链表,即为线性表(a1,a2,…,an)的链式存储结构,因为此链表的每个结点中只包含一个指针域,所以叫做单链表 如图:
对于线性表来说,总得有个头尾,链表也不例外。我们把链表中第一个结点的存储位置叫头指针,因为最后一个结点没有后继结点,所以我们把最后一个结点的存储位置为NULL(空)或^符合标示。我们为了更加方便地对链表进行操作,会在单链表的第一个结点前附设一个结点,称为头结点。头结点的数据域可以不存储任何信息,也可以存储如线性表的长度等附加信息,头结点的指针域存储指向第一个结点的指针,如图:
头指针与头结点的差别:
- 头指针:
- 头指针是指链表指向第一个结点的指针,若链表有头结点,则指向头结点的指针。
- 具有标识作用,所以常用头指针冠以链表的名字。
- 无论链表是否为空,头指针均不为空。头指针是链表的必要元素。
- 头结点:
- 头结点是为了操作的统一和方便而设立的,放在第一个元素的结点之前,其数据域一般无意义(或放链表长度)。
- 有了头结点,对在第一元素结点前插入结点和删除第一结点,其操作与其他结点的操作就统一了。
- 头结点不一定是链表必须要素。
单链表在C语言的标示方式如下:
typedef struct Node
{
ElemType data;
struct Node *next;
}Node;
typedef struct Node *LinkList;/*定义单链表*/
从以上代码我们知道,结点由存放数据元素的数据域和存放后继结点地址的指针域组成。
单链表的读取
获取链表第i个数据的算法思路
- 声明一个结点p指向链表第一个结点,初始化j从1开始;
- 当j<i时,就遍历链表,让p的指针向后移动,不断指向下一个结点,j累加1;
- 若到链表末尾p为空,则说明第i个元素不存在;
- 否则查找成功,返回结点p的数据。
代码如下:
Status getElem(LinkList L,int i,ElemType *e)
{
int j;
LinkList p;
p = L->next;
j = 1;
while (p && j<i)
{
p = p->next;
++j;
}
if ( !p || j>i )
return ERROR;
*e = p->data;
return OK;
}
说白了,就是从头开始找,直到第i个元素为止。由于这个算法的时间复杂度取决于i的位置,当i=1时,则不需要遍历,第一个就取出数据了,而当i=n时则遍历n-1次才可以。因此最坏情况的时间复杂度是O(n),其核心思想就是工作指针后移动。
单链表的插入与删除
插入
算法思路:
- 声明一个结点p指向链表第一个结点,初始化j从1开始;
- 当j<i时,就遍历链表,让p的指针向后移动,不断指向下一结点,j累加1;
- 若到链表末尾p为空,则说明第i个元素不存在;
- 否则查找成功,在系统中生成一个空结点s;
- 将数据元素e赋值给s->data;
- 单链表的插入标准语句s->next = p->next; p->next=s;
- 返回成功。
代码如下:
Status insertList(LinkList *L,int i,ElemType e)
{
int j;
LinkList p,s;
p = *L;
j = 1;
while (p && j < i)
{
p = p->next;
++j;
}
if (!p || j> i)
return ERROR;
s = (LinkList)malloc(sizeof(Node)); /*生成新结点*/
s->data = e;
s->next = p->next;
p->next = s;
return OK;
}
删除
现在我们在来看看单链表的删除。设存储元素ai的结点为q,要实现将结点q删除单链表的操作,其实就是将它的前继结点的指针绕过,指向它的后继结点即可,如图:
实际上就是一步,p->next=p->next->next,用q来取代p->next,即q=p->next; p->next=q->next;
静态链表
总体来说,静态链表利用数组实现,其实是为了给没有指针的高级语言设计的一种实现单链表能力的方法。尽管大家不一定会用得上,但这样的思考方式是非常巧妙的。
循环链表
其本质是在单向链表中的一种判断而已,如不让程序跑到尾结点,即不让它的后继指针为Null,变而为头结点的指针。
双向链表
当然链表还有静态链表、循环链表(头尾相连)、双向链表(有两个指针域)。我们具体就不再演示, 说白了都是基于单链表实现的。总结一下吧,由于顺序存储结构的插入和删除操作不方便,引出链式存储结构。它具有不受固定存储空间限制(当然相比顺序存储更占空间),可以比较快捷的插入和删除操作的特点。学好线性表的这两种结构是学好其他数据结构的基础。