数据结构第一天（数据三要素&大O记法）

数据结构绪论

一、数据结构起源

早期人们把计算机作为数值计算工具，就是说，人们认为计算机只能进行数据计算。因此为了解决问题，需要先从具体问题中抽象出一个适当的数据模型，设计出一个解决该模型的算法，然后再编写程序，得到一个实际的软件。

可现实生活中，人们更多的不是解决数值计算的问题，而是需要一些更科学有效的手段（比如表格、索引等）的帮助，才能更好的解决问题。所以，数据结构是一门研究非数值计算的程序设计问题中的操作对象，以及它们之间的关系和操作等相关问题的学科。

1968年，美国Donald E. Knuth教授在其所写的《计算机程序艺术》第一卷《基本算法》中，较系统地阐述了数据的逻辑结构和存储结构以及操作，开创了“数据结构”的课程体系。同年，数据结构作为一门独立课程，在计算机科学学位课程中开始出现。

数据结构是介于数学、计算机硬件、计算机软件、逻辑学等学科之间的综合学科，是计算机学科的一门核心课程，是设计实现编译系统、操作系统、数据库等其他课程和大型应用程序的基础。

进入70年代，出现了大型计算机程序，软件开始相对独立，结构程序设计成为程序设计方法学的主要内容。人们越来越重视“数据结构”，认为程序设计的实质是对确定的问题选择一种好的数据结构，加上设计出一种好的算法。即：

程序设计=数据结构+算法

二、数据结构基本概念

1、数据

定义：数据（Data）：是描述客观事物的符号，是计算机中可以操作的对象，是能被计算机识别、并输入给计算机处理的符号集合。

正所谓“巧妇难为无米之炊”，数据结构是针对数据进行研究的学科，那么这里的“米”就是数据。

数据不仅仅包含整型、字符型、浮点型等数值类型，还包括字符、图像、声音、视频等非数值类型。

数据必须具备两个前提：

⒈可以输入到计算机中

⒉能被计算机识别并处理

2、数据元素

定义：数据元素：是组成数据的、有一定意义的基本单位，在计算机中通常作为整体处理。也称为“记录”。

例如，若我们要对家畜类进行调查，则牛、羊、马、狗、猪等都是家畜类的数据元素。

3、数据项

定义：数据项：一个数据元素可以由若干个数据项组成。数据项是数据不可分割的最小单位。

比如人这样的数据元素，可以有眼、耳、鼻、口、手等数据项，也可以有姓名、年龄、性别、出生日期、出生地址、联系电话等数据项。具体使用哪些数据项，要视你做的程序决定。

4、数据对象

定义：数据对象：是性质相同的数据元素的集合，是数据的子集。

5、数据结构

定义：数据结构：是相互之间存在一种或多种特定关系的数据元素的集合。

在计算机中，数据元素并不是孤立、杂乱无序的，而是具有内在联系的数据集合。数据元素之间存在的一种或多种特定的联系，也就是数据的组织形式。

总体来说，数据结构就是研究数据的存储、数据的操作，以及数据间的关系的学科。

三、逻辑结构与物理结构

按照视点不同，我们把数据结构分为逻辑结构和物理结构

1、逻辑结构

逻辑结构：是指数据对象中数据元素之间的相互关系。逻辑结构主要分成4种：集合结构、线性结构、树形结构、图形结构。

1）集合结构：集合结构中的数据元素除了同属一个集合外，它们之间没有其他关系，各个元素是“平等”的。数据结构中的集合结构类似于数学中的集合。

2）线性结构：线性结构中的数据元素之间是一对一的关系。一个数据元素（除开头元素）都有一个前驱，一个数据元素（除结尾元素）都有一个后继。

3）树形结构：树形结构中的数据元素之间存在一种一对多的层次关系。一个数据元素（除根节点元素）都有一个前驱，一个数据元素（除叶节点元素）都有多个后继。

4）图形结构：图形结构中的数据元素之间是多对多的关系。一个数据元素（除特殊元素）都有一个或多个前驱，一个数据元素（除特殊元素）都有一个或多个后继。

我们在画逻辑结构示意图时，要注意两点：

⒈将每个数据元素看做一个节点，用圆圈表示。

⒉元素之间的关系用节点间的连线表示，如果这个关系是有方向的，那么用带箭头的连线表示。

2、物理结构（其他书籍也译为“存储结构”）

物理结构：是指数据的逻辑结构在计算机内存中的存储形式。

数据的物理结构要能正确地反应数据元素之间的逻辑关系，如何针对存储数据的逻辑结构构建其对应的正确的物理结构，是实现物理结构的重点和难点。

数据元素的物理结构主要有两种：顺序存储和链式存储。

//注：另外的索引存储、散列存储等其他存储结构不做介绍

1）顺序存储结构

顺序存储结构：是把数据元素存放在地址连续的存储单元中，其数据的逻辑关系和物理关系一致。

我们在之前的C语言课程中，数组就是顺序存储结构。

2）链式存储结构

链式存储结构：是把数据元素存放在任意的存储单元里，这些存储单元可以是连续的，也可以是不连续的。数据元素之间需要使用指针来找到与其相关的数据元素的位置。

四、对数据的运算（操作）

数据结构中，对数据的基本操作主要有：

⒈插入：在指定位置插入新的数据

⒉删除：删除指定位置（或指定关键字）的数据

⒊排序：将数据按一定的关键字顺序进行排序使其有序

⒋查找：按指定关键字查找某项数据

⒌修改：修改某项数据

⒍遍历：按某种顺序访问数据结构中所有节点，每个节点能且仅能被访问一次。

/**********************************************************************************************************************************/

算法简介

一、数据结构与算法的关系

虽然本门课程叫“数据结构”，但经常会讲到算法，以及它们之间的关系。在市面上也经常有诸如“数据结构与算法分析”这样名字的书。

实际上，数据结构与算法是依存关系。只谈数据结构而抛弃算法，则数据是“死”的，没有活力的；只谈算法而抛弃数据结构，则算法无法有所依赖的操作对象，只是空谈。对于程序来说，数据结构赋予其血肉骨骼，算法赋予其灵魂思想，二者合一才是完整的程序，二者缺一不可。因此，我们在学习数据结构的时候，经常要学习算法的相关知识。

二、算法定义

定义：算法（Algorithm）：算法是解决特定问题求解步骤的描述，在计算机中表现为指令的有限序列，并且每条指令表示一个或多个动作。

对于给定的问题，是可以有多种算法来解决的。

现实世界中问题千奇百怪，算法当然也就千变万化，没有通用的算法可以解决所有的问题。甚至对于一些问题，优秀的算法却不见得适合它。（例如，对于数据量较少（万以下）的数据排序，快速排序算法的执行效率并没有比冒泡排序快上很多。）

算法示例：辗转相除法求两个正整数的最大公约数

辗转相除法，又名欧几里得算法（Euclidean algorithm），大约3000年前由欧几里得在其著作《几何原本》中提出，是世界上已知最古老的算法。

算法描述：设两数为a、b（a>b），求最大公约数的步骤如下：

⒈用a除以b，得到其商q和余数r

⒉若r=0，则最大公约数就是b，算法结束

⒊若r!=0，则令a=b，b=r

⒋循环执行，回到步骤1

代码描述：

/************
*函数Euclidean_algorithm()
*入参：两个整数int m,int n
*返回值：两数的最大公约数
*功能：计算两个数的最大公约数
**************/
int Euclidean_algorithm(int m,int n)
{
    int r;
    do{
        r=m%n;
        m=n;
        n=r;
    }while(r!=0);
    return m;
}

构造一个算法的常见方法有：递推法、递归法、穷举法、贪心法、分治法、动态规划法、迭代法、分支界限法、回溯法等。

一些大名鼎鼎的算法：

⒈辗转相除法：已知世界上最古老的算法

⒉割圆术：刘徽首创，祖冲之改进，计算圆周率

⒊秦九韶算法：大大简化多项式的计算

⒋快速排序算法：20世纪十大算法之一

⒌赫夫曼编码：数据压缩的基本算法

⒍RSA加密：现代计算机网络数据加密算法的基础

⒎蒙特卡洛搜索树算法：人工智能基础算法，让计算机“可以像人类般思考”的算法

三、算法的特性

算法具有5个基本特性：输入、输出、有穷性、确定性、可行性

1、输入输出：

算法具有0个或多个输入，至少有1个输出。输出的形式可以是打印字符，也可以是返回值等形式。

2、有穷性：

有穷性：指算法在执行有限的步骤后，自动结束而不会出现无限循环，并且每个步骤在可接受的时间内完成。

3、确定性：

确定性：算法的每一步骤都具有确定的含义而不会出现二义性。算法在一定条件下，只有一条执行路径，相同的输入只能得到唯一的输出结果。算法的每个步骤被精确定义而无歧义。

4、可行性：

可行性：算法的每一步必须是可行的，也就是说，每一步都可以通过执行有限次数完成。可行性意味着算法可以转换成上机程序并得到正确结果。

四、算法设计要求

好的算法，应该具有正确性、可读性、健壮性、高效率和低存储量的特征。

1、正确性：

正确性：算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性、能正确反应问题的需求、能够得到问题的正确答案。

算法的正确性大体上分为4个层次：

⒈算法程序没有语法错误；

⒉算法程序对于合法的输入数据能够产生满足要求的输出结果；

⒊算法程序对于非法的输入能够得出满足规格说明的信息；

⒋算法程序对于精心选择的、甚至刁难的测试数据都有满足要求的输出结果。

证明一个复杂算法的正确性需要数学推导方法的证明，而若证明以上4个层次都正确的话代价非常昂贵，因此一般情况下，我们把层次3作为一个算法是否具有正确性的标准。

2、可读性：

可读性：算法设计的另一目的是为了方便阅读、理解和交流。

可读性高有助于人们理解算法，晦涩难懂的算法往往会隐含错误，不易被发现，并且难于实现、调试和修改。

有时，我们可能为了追求极致（例如致力于用最少的代码来描述算法）而书写出一些难以理解的算法，这样的代码真的不好理解，也许除了计算机自己，没几个人能读懂这样的代码。可读性是算法（也包括实现该算法的代码）好坏的很重要的指标。

3、健壮性：

健壮性：当输入数据不合法时，算法也能做出相关的处理，而不会产生异常或输出莫名其妙的结果。

一个好的算法还应能对输入数据不合法的情况做出合适的处理，例如若输入的不能为负数（例如时间、年龄、工号、距离等）的数据为负数时算法要能够报错。

4、时间效率高和存储量低：

最后，好的算法还应具备时间效率高和存储量低的特点。

五、算法效率的度量方法

1、事后统计方法

事后统计方法：这种方法主要是通过设计好的测试程序和数据，利用计算机计时器对不同算法编制的计算机程序的运行时间进行比较，从而确定算法运行效率的高低。

2、事前分析估算方法

事前分析估算方法：在计算机程序编写前，根据统计方法对算法进行估算。

一个用高级语言编写的程序在计算机上运行时间取决于以下因素：

⒈算法采用的策略、方法

⒉编译产生的代码质量

⒊问题的输入规模

⒋机器执行指令的速度

其中第1条是算法好坏的根本，第2条取决于软件，第4条取决于硬件性能。也就是说，一个程序的运行时间，依赖于算法的好坏和输入的规模。

六、算法的时间复杂度

1、算法的时间复杂度与大O记法

定义：算法的时间复杂度：在进行算法分析时，语句总的执行次数T(n)是一个关于问题规模n的函数，进而分析T(n)随n的变化情况确定T(n)的数量级。算法的时间复杂度记做：T(n)=O(f(n))，它表示随着问题规模n的增大，算法执行时间的增长率和函数f(n)的增长率相同，称作算法的渐进时间复杂度，简称为时间复杂度。其中f(n)是问题规模n的某个函数。

这样用O()来体现算法时间复杂度的记法，我们称之为大O记法。

大O记法表示算法时间复杂度增长率的上限，即随着数据规模n的增大，所耗时的可能最大增长率。

2、推导大O阶的方法

已知语句执行次数T(n)，推导一个算法时间复杂度大O阶的方法如下：

⒈用常数1取代T(n)中的所有加法常数

⒉在修改后的运行次数函数中，只保留最高阶项

⒊如果最高阶项存在且不是1，则去除与这个项相乘的常数

示例：分析以下算法的时间复杂度

void MATRIXM(int n)
{
    float A[n][n],B[n][n],C[n][n];
    int i,j,k;
    for(i=0;i<n;i++)
    {
        for(j=0;j<n;j++)
        {
            C[i][j]=0;
            for(k=0;k<n;k++)
            {
                C[i][j]=C[i][j]+A[i][k]*B[j][k];
            }
        }
    }
}

第一步：计算语句执行次数T(n)

对于算法来说，我们要求得语句执行次数，需要先分析每一条语句的语句频度。对于以上代码来说，其每一条语句的语句频度为：

void MATRIXM(int n)                                //该语句的语句频度
{
    float A[n][n],B[n][n],C[n][n];
    int i,j,k;
    for(i=0;i<n;i++)//--------------------------------->n+1次
    {
        for(j=0;j<n;j++)//------------------------------>n*(n+1)次
        {
            C[i][j]=0;//----------------------------------->n^2次
            for(k=0;k<n;k++)//------------------------->n^2 * (n+1)次
            {
                C[i][j]=C[i][j]+A[i][k]*B[j][k];//------------>n^3次
            }
        }
    }
}

将以上每个语句频度相加，得到

T(n)=2*n^3+3*n^2+2*n+1

第二步：保留最高次项

T(n)----->O(2*n^3)

第三步：去除最高次项系数

T(n)----->O(n^3)

即T(n)=O(n^3)

练习：自定义一个一维数组，编写查找该数组中最大元素的算法，并分析其时间复杂度

答案：

//代码略

该算法的时间复杂度为O(n)

定理：若A(n)=am*n^m+……+a1*n+a0是一个m次多项式，则A(n)=O(n^m)

3、常见时间复杂度

从计算时间上可以把算法分成两类：可以用多项式来对其计算时间限界的算法，称为多项式时间算法（polynomial time algorithm）；而计算时间用指数函数限界的算法称为指数时间算法（exponential time algorithm）。

常见的多项式时间算法有O(1)、O(logn)、O(n)、O(nlogn)、O(n2)、O(n3)。

常见的指数时间算法有O(2^n)、O(n!)、O(n^n)。

以下是常见的一些T(n)的时间复杂度O(n)

常用算法的时间复杂度所耗费的时间从小到大依次是：

O(1) < O(logn) < O(n) < O(nlogn) < O(n^2) < O(n^3) < O(2^n) < O(n!) < O(n^n)

对于O(n^3)以及以后的时间复杂度，过大的n都会使得算法耗时大大增加，因此过于大的时间复杂度一般不予讨论。

4、最坏情况与平均情况

针对不同的数据n，同样的算法所运行的时间也不完全相同。例如在n个数据中查找一个数据，最好情况是第一个数据就是，那么这时的时间复杂度就是O(1)，而最坏的情况就是数据在最后，那么这时的时间复杂度就是O(n)。最坏情况运行时间是一种保证，即运行时间不会更坏。通常情况下，若无特殊指定，算法的时间复杂度都指最坏情况下的时间复杂度。

而平均情况的时间复杂度是从概率角度来看，这个数据在每一个位置是完全随机的。平均运行时间是所有情况中最有意义的，因为它是期望的运行时间。可在现实中，平均运行时间很难通过事前分析得到，需要运行一定量的实验数据后估算出来。

七、算法空间复杂度

算法的空间复杂度通过计算算法所需的存储空间实现，算法的空间复杂度记做S(n)=O(f(n))，其中n为问题的规模，f(n)为语句关于n所占存储空间的函数。

一般情况下，一个程序运行时，除了存储本身指令、常数、变量和输入量之外，还需要存储对数据操作的存储单元，即算法在运行中的辅助单元。若算法执行时所需辅助空间相对于数据输入量而言是个常数，则此算法为原地工作，空间复杂度为O(1)。

数据结构第一天（数据三要素&大O记法）

数据结构 第一天（数据三要素&大O记法）

猜你喜欢

数据结构第一天（数据三要素&大O记法）