大话数据结构与算法(二)

大话数据结构与算法-程杰

第二章算法

算法是解决特定问题求解步骤的描述，在计算机中表现为指令的优先序列，并且每条指令表示一个或多个操作。

数据结构与算法的关系
程序 = 算法 + 数据结构
数据结构是算法实现的基础，算法总是要依赖于某种数据结构来实现的。往往是在发展一种算法的时候，构建了适合于这种算法的数据结构。算法的操作对象是数据结构。算法的设计和选择要同时结合数据结构，简单地说数据结构的设计就是选择存储方式，如确定问题中的信息是用数组存储还是用普通的变量存储或其他更加复杂的数据结构。
算法设计的实质就是对实际问题要处理的数据选择一种恰当的存储结构，并在选定的存储结构上设计一个好的算法。不同的数据结构的设计将导致差异很大的算法。数据结构是算法设计的基础。用一个形象的比喻来解释：开采煤矿过程中，煤矿以各种形式深埋于地下。矿体的结构就像相当于计算机领域的数据结构，而煤就相当于一个个数据元素。开采煤矿然后运输、加工这些“操作”技术就相当于算法。显然，如何开采，如何运输必须考虑到煤矿的存储（物理）结构，只拥有开采技术而没有煤矿是没有任何意义的。算法设计必须考虑到数据结构，算法设计是不可能独立于数据结构的。另外，数据结构的设计和选择需要为算法服务。如果某种数据结构不利于算法实现它将没有太大的实际意义。知道某种数据结构的典型操作才能设计出好的算法。
总之，算法的设计同时伴有数据结构的设计，两者都是为最终解决问题服务的。

算法的特性

有穷性
指算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤在可接受的时间内完成。
正确性
算法的每一个步骤都具有确定的含义，不会出现二义性。
可行性
算法的每一步都必须是可行的，也就是说，每一步都能够通过执行有限次数完成。
输入输出
算法具有零个或者多个输入，至少有一个或者多个输出。

算法的设计要求

正确性
算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性、能正确反映问题的需求、能够得到问题的正确答案。
可读性
算法设计的另一个目的是为了便于阅读、理解和交流。
健壮性
当输入数据不合法时，算法也能做出相关处理，而不是产生异常或莫名奇妙的结果。
时间效率高和存储量低
时间效率是指算法的执行时间，对于同一个问题，如果有多个算法能够解决，执行时间短的算法效率高，执行时间长的效率低；存储量需求指的是算法在执行过程中需要的最大存储空间，主要指算法程序运行时所占用的内存或外部硬盘存储空间。

算法时间复杂度
<1> 算法时间复杂度的定义：
在进行算法分析时，语句总的执行次数T(n)是关于问题规模n的函数，进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度，也就是算法的时间量度。记作：T(n)=O(f(n))。它表示随问题n的增大，算法执行时间的增长率和f(n)的增长率相同，称作算法的渐进时间复杂度，简称为时间复杂度。其中，f(n)是问题规模n的某个函数。
这样用大写O()来体现算法时间复杂度的记法，我们称之为大0阶方法。

<2> 推导大0阶方法：
A. 用常数1取代运行时间中的所有加法常数;
B. 在修改后的运行次数函数中，只保留最高阶项;
C. 如果最高阶项存在且不是1，则去除与这个项目相乘的常数。得到的结果就是大O阶。

常数阶
首先顺序结构的时间复杂度。下面这个算法，是利用高斯定理计算1，2，3……n个数的和。

int sum = 0, n = 100;       /*执行一次*/
sum = (1 + n) * n / 2;      /*执行一次*/
printf("%d",sum);           /*执行一次*/

这个算法的运行次数函数是f (n) =3。根据我们推导大0阶的方法，第一步就是把常数项3 改为1。在保留最高阶项时发现，它根本没有最高阶项，所以这个算法的时间复杂度为0(1)。
另外，我们试想一下，如果这个算法当中的语句 sum = (1+n)*n/2; 有6句，即，

int sum = 0, n = 100;       /*执行一次*/
sum = (1 + n) * n / 2;      /*执行第1次*/
sum = (1 + n) * n / 2;      /*执行第2次*/
sum = (1 + n) * n / 2;      /*执行第3次*/
sum = (1 + n) * n / 2;      /*执行第4次*/
sum = (1 + n) * n / 2;      /*执行第5次*/
sum = (1 + n) * n / 2;      /*执行第6次*/
printf("%d",sum);           /*执行一次*/

则与示例给出的代码就是3次和6次的差异。这种与问题的大小无关（n的多少），执行时间恒定的算法，我们称之为具有O(1)的时间复杂度，又叫常数阶。
对于分支结构而言，无论是真，还是假，执行的次数都是恒定的，不会随着n 的变大而发生变化，所以单纯的分支结构(不包含在循环结构中)，其时间复杂度也是0(1)。
2. 线性阶
线性阶的循环结构会复杂很多。要确定某个算法的阶次，我们常常需要确定某个特定语句或某个语句集运行的次数。因此，我们要分析算法的复杂度，关键就是要分析循环结构的运行情况。
下面这段代码，它的循环的时间复杂度为O(n)，因为循环体中的代码须要执行n次。

int i;      
for(i = 0; i < n; i++)
{
    /*时间复杂度为O(1)的程序步骤序列*/
}

对数阶
下面的这段代码，时间复杂度又是多少呢？

int count = 1;      
while (count < n)
{
   count = count * 2;
  /*时间复杂度为O(1)的程序步骤序列*/
}

由于每次count乘以2之后，就距离n更近了一分。也就是说，有多少个2相乘后大于n，则会退出循环。由2^x=n 得到x=logn。所以这个循环的时间复杂度为O(logn)。
4. 平方阶
下面例子是一个循环嵌套，它的内循环刚才我们已经分析过，时间复杂度为O(n)。

for(int i = 0; i < n; i++)
{
    for(int j = 0; j < n; j++){
        /*时间复杂度为O(1)的程序步骤序列*/
    }
}

而对于外层的循环，不过是内部这个时间复杂度为O(n)的语句，再循环n次。所以这段代码的时间复杂度为O(n^2)。
如果外循环的循环次数改为了m，时间复杂度就变为O(mXn)。

所以我们可以总结得出，循环的时间复杂度等于循环体的复杂度乘以该循环运行的次数。那么下面这个循环嵌套，它的时间复杂度是多少呢?

for( int i = 0; i < n; i++)
{
    for(int j = i; j < n; j++)
    {   /*注意j = i而不是0*/
        /*时间复杂度为O(1)的程序步骤序列*/
    }
}

由于当i=0时，内循环执行了n次，当i = 1时，执行了n-1次，……当i=n-1时，执行了1次。所以总的执行次数为:
在这里插入图片描述
用我们推导大O阶的方法，第一条，没有加法常数不予考虑；第二条，只保留最高阶项，因此保留时(n^2)/2; 第三条，去除这个项相乘的常数，也就是去除1/2，最终这段代码的时间复杂度为O(n2)。
常见的时间复杂度
常见的时间复杂度如下表：

执行次数函数	阶	非正式用语
12	O(1)	常数阶
2n+3	O(n)	线性阶
3n2+2n+1	O(n2)	平方阶
5log2n+20	O(logn)	对数阶
2n+3nlog2n+19	O(nlogn)	nlogn阶
6n3+2n2+3n+4	O(n3)	立方阶
2n	O(2n)	指数阶

常用的时间复杂度所耗费的时间由小到大依次是：
O(1)<O(logn)<O(n)<O(nlogn)<O(n2)<O(n3)<O(2n)<O(n!)<O(nn)

小结：

在这里插入图片描述

大话数据结构与算法(二)

第二章 算法

小结：

猜你喜欢

第二章算法