数据结构与算法之美 - 排序

常用的排序:

一、算法分析

数据结构与算法之美 - 11

1、排序算法的执行效率

1).最好情况、最坏情况、平均情况时间复杂度

  • 了解最好、最坏时间复杂度对应的要排序的原始数据。
  • 对于要排序的数据,有的接近有序,有的完全无序。有序度不同的数据,对于排序的执行时间肯定是有影响的,我们要知道排序算法在不同数据下的性能表现。

2).时间复杂度的系数、常数 、低阶

  • 在实际排序过程中,排序的可能是 10 个、100 个、1000 个这样规模很小的数据,所以,在对同一阶时间复杂度的排序算法性能对比的时候,我们就要把系数、常数、低阶也考虑进来。

3).比较次数和交换(或移动)次数

  • 基于比较的排序算法的执行过程,会涉及两种操作,一种是元素比较大小,另一种是元素交换或移动。所以,如果我们在分析排序算法的执行效率的时候,应该把比较次数和交换(或移动)次数也考虑进去。

2、排序算法的内存消耗

  • 算法的内存消耗可以通过空间复杂度来衡量,排序算法也不例外。针对排序算法的空间复杂度,我们还引入了一个新的概念,原地排序(Sorted in place)。原地排序算法,就是特指空间复杂度是 O(1) 的排序算法。

3、排序算法的稳定性

  • 稳定性:意思是如果待排序的序列中存在值相等的元素,经过排序之后,相等元素之间原有的先后顺序不变。
  • 在对象分别根据多个key进行排序的时候,稳定性很重要。

二、O(n2)时间复杂度的经典排序 

数据结构与算法之美 - 11(07:42)

1、冒泡排序

原理:

冒泡排序只会操作相邻的两个数据。每次冒泡操作都会对相邻的两个元素进行比较,看是否满足大小关系要求。如果不满足就让它俩互换。一次冒泡会让至少一个元素移动到它应该在的位置,重复 n 次,就完成了 n 个数据的排序工作。可以对过程进行优化,某次冒泡操作已经没有数据交换时,说明已经达到完全有序,不用再继续执行后续的冒泡操作。减少排序无效遍历。

稳定性:

当有相邻的两个元素大小相等的时候,不做交换,相同大小的数据在排序前后就不会改变顺序,保证了冒泡排序稳定性。

时间复杂度:

最好时间复杂度:有序序列,只需遍历一次,时间复杂度是O(n);

最坏时间复杂度:全无序序列,遍历n次,时间复杂度是O(n2);

平均时间复杂度:【分析思路:有序度和逆序度】平均时间复杂度是O(n2)

有序度:有序度是数组中具有有序关系的元素对的个数。

满有序度:比如 1,2,3,4,5,6,有序度就是 n*(n-1)/2,也就是 15。我们把这种完全有序的数组的有序度叫作满有序度。

逆序度:逆序度 = 满有序度 - 有序度

冒泡排序不管怎么优化,元素交换的次数是一个固定值,是原始数据的逆序度。

空间复杂度:

算法执行过程中,无序格外的内存空间,所以空间复杂度O(1),因此 冒泡排序 是原地排序;


2、插入排序

// 插入排序,a表示数组,n表示数组大小
public void insertionSort(int[] a, int n) {
  if (n <= 1) return;

  for (int i = 1; i < n; ++i) {
    int value = a[i];
    int j = i - 1;
    // 查找插入的位置
    for (; j >= 0; --j) {
      if (a[j] > value) {
        a[j+1] = a[j];  // 数据移动
      } else {
        break;
      }
    }
    a[j+1] = value; // 插入数据
  }
}

原理:

插入算法的核心思想是取未排序区间中的元素,在已排序区间中找到合适的插入位置将其插入,并保证已排序区间数据一直有序。重复这个过程,直到未排序区间中元素为空,算法结束。初始已排序区间只有一个元素,就是数组的第一个元素。

稳定性:

对于值相同的元素,我们可以选择将后面出现的元素,插入到前面出现元素的后面,这样就可以保持原有的前后顺序不变,从而保持插入排序的稳定性;

时间复杂度:

最好:O(n)

最坏:O(n2)

平均:O(n2)

插入排序是同样的,不管怎么优化,元素移动的次数也等于原始数据的逆序度。

空间复杂度:

算法执行过程中,无序格外的内存空间,所以空间复杂度O(1),因此 冒泡排序 是原地排序;


3、选择排序

原理:

选择排序算法的实现思路有点类似插入排序,也分已排序区间和未排序区间。但是选择排序每次会从未排序区间中找到最小的元素,将其放到已排序区间的末尾。

稳定性:

选择排序是一种不稳定的排序算法。从我前面画的那张图中,你可以看出来,选择排序每次都要找剩余未排序元素中的最小值,并和前面的元素交换位置,这样破坏了稳定性。

时间复杂度:

最好:O(n)

最坏:O(n2)

平均:O(n2)

空间复杂度:

算法执行过程中,无序格外的内存空间,所以空间复杂度O(1),因此 冒泡排序 是原地排序;

4、冒泡排序和插入排序的优劣:

冒泡排序不管怎么优化,元素交换的次数是一个固定值,是原始数据的逆序度。

插入排序是同样的,不管怎么优化,元素移动的次数也等于原始数据的逆序度。

但是,从代码实现上来看,冒泡排序的数据交换要比插入排序的数据移动要复杂,冒泡排序需要 3 个赋值操作,而插入排序只需要 1 个。

虽然冒泡排序和插入排序在时间复杂度上是一样的,都是 O(n2),但是如果我们希望把性能优化做到极致,那肯定首选插入排序。


三、O(nlogn)时间复杂度的经典排序

数据结构与算法之美 - 12

1、归并排序

原理:

如果要排序一个数组,我们先把数组从中间分成前后两部分,然后对前后两部分分别排序,再将排好序的两部分合并在一起,这样整个数组就都有序了。如果要排序一个数组,我们先把数组从中间分成前后两部分,然后对前后两部分分别排序,再将排好序的两部分合并在一起,这样整个数组就都有序了。

归并排序使用的就是分治思想。分治,顾名思义,就是分而治之,将一个大问题分解成小的子问题来解决。小的子问题解决了,大问题也就解决了。从我刚才的描述,你有没有感觉到,分治思想跟我们前面讲的【递归】思想很像。是的,分治算法一般都是用递归来实现的。分治是一种解决问题的处理思想,递归是一种编程技巧,这两者并不冲突。

// 递推公式:
merge_sort(p…r) = merge(merge_sort(p…q), merge_sort(q+1…r))

// 终止条件:
p >= r // 不用再继续分解

稳定性:

通过合并方法的操作,来保证算法的稳定性。

时间复杂度:

归并排序涉及递归,时间复杂度的分析稍微有点复杂。

递归的时间复杂度:

T(a) = T(b) + T(c) + K  // 时间复杂度的递推公式

不仅递归求解的问题可以写成递推公式,递归代码的时间复杂度也可以写成递推公式。

归并排序的执行效率与要排序的原始数组的有序程度无关,所以其时间复杂度是非常稳定的,不管是最好情况、最坏情况,还是平均情况,时间复杂度都是 O(nlogn)。

空间复杂度:

归并排序的合并函数,在合并两个有序数组为一个有序数组时,需要借助额外的存储空间。

尽管每次合并操作都需要申请额外的内存空间,但在合并完成之后,临时开辟的内存空间就被释放掉了。在任意时刻,CPU 只会有一个函数在执行,也就只会有一个临时的内存空间在使用。临时内存空间最大也不会超过 n 个数据的大小,所以空间复杂度是 O(n)。


2、快速排序

原理:

如果要排序数组中下标从 p 到 r 之间的一组数据,我们选择 p 到 r 之间的任意一个数据作为 pivot(分区点)。我们遍历 p 到 r 之间的数据,将小于 pivot 的放到左边,将大于 pivot 的放到右边,将 pivot 放到中间。经过这一步骤之后,数组 p 到 r 之间的数据就被分成了三个部分,前面 p 到 q-1 之间都是小于 pivot 的,中间是 pivot,后面的 q+1 到 r 之间是大于 pivot 的。

快排利用的也是分治思想,根据分治、递归的处理思想,我们可以用递归排序下标从 p 到 q-1 之间的数据和下标从 q+1 到 r 之间的数据,直到区间缩小为 1,就说明所有的数据都有序了。

// 递推公式:
quick_sort(p…r) = quick_sort(p…q-1) + quick_sort(q+1… r)

// 终止条件:
p >= r

3、问题:


 

猜你喜欢

转载自blog.csdn.net/u013025748/article/details/115080100