堆排序

堆结构很大的一个用处，就是用于堆排序了，堆排序的时间复杂度是 $O(n*log_2n)$ 量级的，在众多排序算法中所处的地位也是高手级别的了。
但很多人在使用堆排序的时候，首先认为我必须得有一个堆数据结构才行，如下面代码这样：

//堆的结构定义
typedef int HDataType;
typedef struct Heap
{
    
    
	HDataType* a;//堆数据在物理上使用数组进行存储
	int size;//标记堆数据的有效个数
	int capacity;//标记堆空间的容量大小
}Hp;

Hp hp;//定义一个堆数据结构
HeapInit(&hp);//初始化堆

int a[] = {
    
     27,15,19,18,28,34,65,49,25,37 };
for (int i = 0; i < sizeof(a) / sizeof(int); ++i)
{
    
    
	//为了进行堆排序，先将要排序的数据都push进堆数据结构中
	HeapPush(&hp, a[i]);
}
//此时，堆数据结构中存着一份要排序的数据，数组a里面存着一份要排序的数据

int i = 0;
while (!HeapEmpty(&hp))
{
    
    
	//不断取堆顶元素，放进数组a中，当堆为空时，数组a就有序了
	a[i++] = HeapTop(&hp);
	HeapPop(&hp);
}
HeapDestroy(&hp);

这种堆排序方法也能排序，但未免有些不尽人意，没能充分利用堆的优势。
虽然时间复杂度达到了 $O(n*log_2n)$ ，但额外的空间复杂度是 $O (n)$ ，因为需要先创建一个堆数据结构出来，用于存放要排序的数据。
如果是像C++的STL那样堆结构通过容器封装，可以直接拿来用的话还好说；但像C语言那样没有现成的堆数据结构可以用，那要想进行堆排序的话，还得自己先写一个堆数据结构出来，劳神费力，搞得复杂了。
所以，有没有什么更好的方法呢？
其实，细心观察不难发现，堆数据结构中的数据在物理上是使用数组进行存储的，而我们需要进行排序的数据也是存放在一个a数组中的，那我们是不是直接可以在a数组中进行堆排序了。
我们可以将a数组从逻辑上看成一棵完全二叉树，需要将其进行调整，以符合堆的结构。此时会涉及到堆的两种调整方式，这两种调整方式都能将一棵完全二叉树调整成堆结构：一个是向上调整建堆，一个是向下调整建堆。具体详情可参看阿顺的这篇博文堆的结构与实现。博文里面对于向上调整建堆和向下调整建堆都给出了时间复杂度的相应计算，最后发现，向下调整建堆的时间复杂度是 $O (n)$ ，向上调整建堆的时间复杂度是 $O(n*log_2n)$ ，所以通过比较，我们自然会选择时间复杂度更优的那个，也就是向下调整建堆了。

//向下调整建堆：O(n)
for (int i = (n - 1 - 1) / 2; i >= 0; --i)
{
    
    
	AdjustDown(a, n, i);
}

此时，a数组已然从一棵完全二叉树蜕变成了一个堆结构。
好了，有了堆结构，如何在a数组上进行操作，将其变得有序呢？这似乎又是个难题。
细心的同学此时又发现，在阅读堆的结构与实现时看到，在介绍堆的向下调整时，首先说到了，堆的删除操作。在删除堆顶数据时，并不是像顺序表一样进行的是覆盖删除，而是用到了一种巧妙的交换操作。堆的删除操作与堆的向下调整天生不可分割。沿着这个思路，是否能将这种交换操作延伸到堆排序中呢？
答案是肯定的。

//end等于数组数组最后一个元素的下标
int end = n - 1;
while (end > 0)
{
    
    
	//将堆顶数据和堆的最后一个数据进行交换
	Swap(&a[0], &a[end]);
	
	//end此时代表的是数组中的数据个数(n-1)个，将最后一个数据排除在外
	AdjustDown(a, end, 0);
	//end减一，end又成了最后一个要调整的数据的下标
	--end;
}

所以整个思想转换成代码如下：

void HeapSort(int* a, int n)
{
    
    
	//先向下调整建堆
	for (int i = (n - 1 - 1) / 2; i >= 0; --i)
	{
    
    
		AdjustDown(a, n, i);
	}

	//O(N*logN)
	int end = n - 1;
	while (end > 0)
	{
    
    
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		--end;
	}
}
void HeapSortTest()
{
    
    
	int a[] = {
    
     27,15,19,18,28,34,65,49,25,37 };
	HeapSort(a, sizeof(a) / sizeof(int));
}

要注意的是，通过以上思路分析，可以发现，要想排升序，需要建大堆，排降序，需要建小堆。

Top-K问题

Top-K问题在实际生活中，还是很常见的。比如说：中国排名前10的大学，世界前500强企业，王者荣耀国服李白等等。
但很多时候，对于Top-K问题，能想到的最简单直接的方式就是排序了。结合问题所需是前K个最小的数据，还是前K个最大的数据，来决定是排升序还是排降序。但是，如果数据量非常大，排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的处理方式还是用堆来解决。
根据上面对于堆排序的讲解，我们这里就可以很好的理解Top-K问题了。
有老铁说，我先用a数组中的前k个数据建个堆，再通过循环将前k个数据之后的数据，一个个都和堆顶数据进行比较，根据问题需求先进行替换，再进行堆的调整，最后这一折腾下来，堆中不就保留了我所想要的数据了吗。
但是，我想说的是，在了解上面的堆排序之后，我们能不能就在原地操作呢？
没错，我们就是要主观地认为，a数组中前k个数据就是我们想要的数据。先将前k个数据调整成堆，在通过循环将前k个数据之后的数据，一个个都和堆顶数据(a[0])进行比较，根据问题需求先进行替换，再进行堆顶数据的向下调整，最后循环完毕，a数组中的前k个数据也就是我们所需要的了。
根据思路，可以写出代码如下：

void TopKFind(int* a, int n, int k)
{
    
    
	assert(a != NULL);

	int* KMinHeap = a;
	//先将前k个数据调整成堆
	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
    
    
		AdjustDown(KMinHeap, k, i);
	}
	
	//将之后的数据与堆顶数据进行比较
	for (int i = k; i < n; ++i)
	{
    
    
		//此处寻找的是前k个最大的数据
		if (KMinHeap[0] < a[i])
		{
    
    
			KMinHeap[0] = a[i];
			AdjustDown(KMinHeap, k, 0);
		}
	}
}

最后，需要注意的是，寻找前k个最小的数据，需要建大堆，寻找前k个最大的数据，需要建小堆。至于是要前k个最小的数据，还是前k个最大的数据，可以根据自己的需求，将判断条件略做更改即可。

堆结构的两个应用

堆排序

Top-K问题

猜你喜欢