数据结构与算法--特殊的完全二叉树--堆，堆排序，利用堆解决topk的问题

树是一种非线性的数据结构，它是由n（n>=0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。

有一个特殊的结点，称为根结点，根节点没有前驱结点。

除根节点外，其余结点被分成M(M>0)个互不相交的集合T1、T2、……、Tm，其中每一个集合Ti(1<= i <= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱，可以有0个或多个后继。

因此，树是递归定义的。

注意：树形结构中，子树之间不能有交集，否则就不是树形结构

1.2 树的相关概念

节点的度：一个节点含有的子树的个数称为该节点的度；如上图：A的为6

叶节点或终端节点：度为0的节点称为叶节点；如上图：B、C、H、I...等节点为叶节点

非终端节点或分支节点：度不为0的节点；如上图：D、E、F、G...等节点为分支节点

双亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点；

如上图：A是B的父节点

孩子节点或子节点：一个节点含有的子树的根节点称为该节点的子节点；

如上图：B是A的孩子节点

兄弟节点：具有相同父节点的节点互称为兄弟节点；如上图：B、C是兄弟节点

树的度：一棵树中，最大的节点的度称为树的度；如上图：树的度为6

节点的层次：从根开始定义起，根为第1层，根的子节点为第2层，以此类推；

树的高度或深度：树中节点的最大层次；如上图：树的高度为4

堂兄弟节点：双亲在同一层的节点互为堂兄弟；如上图：H、I互为兄弟节点

节点的祖先：从根到该节点所经分支上的所有节点；如上图：A是所有节点的祖先

子孙：以某节点为根的子树中任一节点都称为该节点的子孙。

如上图：所有节点都是A的子孙

森林：由m（m>0）棵互不相交的树的集合称为森林；

1.3 树的表示

树结构相对线性表就比较复杂了，要存储表示起来就比较麻烦了，既然保存值域，也要保存结点和结点之间的关系，实际中树有很多种表示方式如：双亲表示法，孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法
typedef int DataType;
struct Node
{
     struct Node* _firstChild1; // 第一个孩子结点
     struct Node* _pNextBrother; // 指向其下一个兄弟结点
     DataType _data; // 结点中的数据域
};

1.4 树在实际中的运用（表示文件系统的目录树结构）

2.二叉树概念及结构

2.1概念

一棵二叉树是结点的一个有限集合，该集合:
        1. 或者为空
        2. 由一个根节点加上两棵别称为左子树和右子树的二叉树组成

从上图可以看出：

        1. 二叉树不存在度大于2的结点
        2. 二叉树的子树有左右之分，次序不能颠倒，因此二叉树是有序树

注意：对于任意的二叉树都是由以下几种情况复合而成的：

2.2现实中的二叉树：

2.3 特殊的二叉树：

1. 满二叉树：一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为K，且结点总数是，则它就是满二叉树。
2. 完全二叉树：完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的。对于深度为K的，有n个结点的二叉树，当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉树。

完全二叉树除了最后一层外，其它层都是满的，但从左到右都是连续的。像下面这张图就不是连续的，所以它不是完全二叉树。

2.4 二叉树的性质

1. 若规定根节点的层数为1，则一棵非空二叉树的第i层上最多有个结点.
2. 若规定根节点的层数为1，则深度为h的二叉树的最大结点数是 .
3. 对任何一棵二叉树, 如果度为0其叶结点个数为 , 度为2的分支结点个数为 ,则有＝＋1
4. 若规定根节点的层数为1，具有n个结点的满二叉树的深度，

        h= (ps：是log以2为底，n+1为对数)
5. 对于具有n个结点的完全二叉树，如果按照从上至下从左至右的数组顺序对所有节点从0开始编号，则对于序号为i的结点有：

        1. 若i>0，i位置节点的双亲序号：(i-1)/2；i=0，i为根节点编号，无双亲节点
        2. 若2i+1<n，左孩子序号：2i+1，2i+1>=n否则无左孩子
        3. 若2i+2<n，右孩子序号：2i+2，2i+2>=n否则无右孩子

2.5 二叉树的存储结构

二叉树一般可以使用两种结构存储，一种顺序结构，一种链式结构。
        1. 顺序存储
        顺序结构存储就是使用数组来存储，一般使用数组只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储，关于堆我们后面的章节会专门讲解。二叉树顺序存储在物理上是一个数组，在逻辑上是一颗二叉树。

2. 链式存储
        二叉树的链式存储结构是指，用链表来表示一棵二叉树，即用链来指示元素的逻辑关系。通常的方法是链表中每个结点由三个域组成，数据域和左右指针域，左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址。链式结构又分为二叉链和三叉链，当前我们学习中一般都是二叉链，后面课程学到高阶数据结构如红黑树等会用到三叉链。

3.堆

3.1 为什么单独讲堆

堆是特殊的完全二叉树，堆特殊在它在许多算法中都有应用，例如堆排序、优先队列和并查集。堆之所以重要，是因为它可以实现高效的插入和删除操作。因此我们会把堆单独拿出来讲。

3.2 堆的概念及结构

堆的性质：

堆中某个节点的值总是不大于或不小于其父节点的值；

堆总是一棵完全二叉树。

3.3 堆的实现

3.2.1 堆的建立

下面我们给出一个数组，这个数组逻辑上可以看做一颗完全二叉树，但是还不是一个堆，现在我们通过算法，把它构建成一个堆。根节点左右子树不是堆，我们怎么调整呢？这里就涉及到了，两种算法：向下调整算法和向上调整算法。

用顺序表创建，成员如下：
typedef struct Heap
{
	HPDataType* a;
	int size;
	int capacity;
}HP;

3.2.2 堆向下调整算法

向上调整算法一般是在堆删除数据的时候用，也可以直接用来建堆。现在我们给出一个数组，逻辑上看做一颗完全二叉树。堆的向下调整算法是指将一个节点向下调整，使其满足堆的性质。堆的向下调整算法如下：

        1. 从根节点开始，依次向下调整每个节点。

        2. 将当前节点与其两个子节点进行比较，如果当前节点的值小于两个子节点中的较大值，则交换当前节点和较大子节点的值。

        3. 重复步骤 2，直到当前节点到达叶节点。

看代码:
void AdjustDown(int* a, int size, int parent)
{
	int child = parent * 2 + 1;

	while (child < size)
	{

		if (child+1 < size && a[child + 1] < a[child])
		{
			++child;
		}

		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
在写这个算法的时候需要注意几处细节：

1.如何寻找孩子节点。

2.与哪个孩子交换

3.结束交换的条件

1.我们寻找孩子，我们用父亲节点乘2就能找到左孩子，左孩子加1就能找到右孩子了。

2.如果你是建立大堆的话你就要和数值大的孩子进行交换，如果你想建立小堆，和小的孩子进行交换就行了。这里需要注意的是，并非所有的双亲节点都存在右孩子，这时需要进行判断右孩子是否存在，child+1 < size

3.进行交换，只要保证孩子节点在总数据范围之内就行了。child < size

3.2.3 堆向上调整算法

向上调整算法一般是在堆插入数据的时候用，也可以直接用来建堆。现在我们给出一个数组，逻辑上看做一颗完全二叉树。我们通过从插入点开始的向上调整算法可以把它调整成一个小堆。堆的向上调整算法是指将一个节点向上调整，使其满足堆的性质。堆的向上调整算法如下：

1. 从最后一个非叶子节点开始，依次向上调整每个节点。

        2. 将当前节点与其父节点进行比较，如果当前节点的值大于父节点的值，则交换两个节点的值。

        3. 重复步骤 2，直到当前节点到达根节点。

看代码：
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

void AdjustUp(HPDataType* a, int child)
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}
在写这个算法的时候需要注意几处细节：

1.如何寻找双亲节点。

2.交换的条件。

3.结束交换的条件

1.我们拿 1（双亲节点），3和4（孩子节点）来举例。

我们寻找双亲结点，只需int parent = (child - 1) / 2就可以了，左孩子3带入，结果成立；右孩子4带入，结果也成立。

2.如果你想建立大堆，那么孩子节点大于双亲节点才进行交换；如果你想建立小堆，那么孩子节点小于双亲节点才进行交换。

3.结束交换，孩子走到0节点，就表示结束了。

3.2.4 使用向下调整算法建大堆

当你也可以建小堆，当然也可以使用向上调整算法建堆。这里值得一提的是，利用向下调整算法的时间复杂堆是要优于向上调整算法的。

int a[] = {1,5,3,8,7,6};

见代码：

#include<stdio.h>
#include<stdlib.h>
typedef int HPDataType;
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}
void AdjustDown(int* a, int size, int parent)
{
	int child = parent * 2 + 1;

	while (child < size)
	{

		if (child + 1 < size && a[child + 1] > a[child])
		{
			++child;
		}

		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
void HeapSort(int* a, int n)
{
	 //建大堆
	 for (int i = (n - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(a, n, i);
	}
}

int main()
{
	int a[] = { 1,5,3,8,7,6 };

	HeapSort(a, sizeof(a)/sizeof(int));

	for (int i = 0; i < sizeof(a)/sizeof(int); i++)
	{
		printf("%d ", a[i]);
	}
	printf("\n");

	return 0;
}

3.2.4.1利用向下调整算法的时间复杂度：O(N)。

3.2.4.2利用向上调整算法的时间复杂度：O(NlogN)

3.2.5 插入节点

我们知道了向上和向下两种插入算法，插入节点是非常容易。首先要考虑的就是容量问题，如果容量不足，那就要扩容。然后插入数据。最后利用算法调整。
void HeapPush(HP* php, HPDataType x)
{
	assert(php);
	if (php->size == php->capacity)
	{
		int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
		HPDataType* tmp = (HPDataType*)realloc(php->a, newCapacity * sizeof(HPDataType));
		if (tmp == NULL)
		{
			perror("realloc fail");
			exit(-1);
		}
		
		php->a = tmp;
		php->capacity = newCapacity;
	}

	php->a[php->size] = x;
	php->size++;

	AdjustUp(php->a, php->size - 1);
}

3.2.6 删除节点

一般规定，删除堆的节点，是删除堆的根节点。我们在删除根节点的时候，不能直接把根节点删除，如果删除了根节点那么堆的整个结构就乱了。我们可以先把根节点与尾节点进行，交换，然后--size，就起到删除的效果了，最后用向下调整算法，调整堆就好了。
void HeapPop(HP* php)
{
	assert(php);
	assert(php->size > 0);

	Swap(&php->a[0], &php->a[php->size - 1]);
	php->size--;

	AdjustDown(php->a, php->size, 0);
}

3.4 堆的应用

以大堆为例，我们通过其结构可知，如果想取到堆中数据的最大值，我们只需要取根节点就好了，如果想取次大值，我们就删除根节点，经过调整后的根节点就是次大值，我们发现利用堆可以去到有序数据，由此我们就引出了堆排序和用堆解决TOP-K问题。

3.4.1 堆排序

堆排序即利用堆的思想来进行排序，总共分为两个步骤：
        1. 建堆
                升序：建大堆
                降序：建小堆
        2. 利用堆删除思想来进行排序

                1. 将待排序的数据构建成一个最大堆。

                2. 将堆顶元素（最大元素）与最后一个元素交换，并将堆的大小减 1。

                3. 对前 n - 1 个元素进行堆调整，使其重新成为一个最大堆。

                4. 重复步骤 2 和 3，直到堆中只剩下一个元素。

见代码：
#include<stdio.h>
#include<stdlib.h>
typedef int HPDataType;
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}
void AdjustDown(int* a, int size, int parent)
{
	int child = parent * 2 + 1;

	while (child < size)
	{

		if (child + 1 < size && a[child + 1] > a[child])
		{
			++child;
		}

		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
// 升序
void HeapSort(int* a, int n)
{
	for (int i = (n - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(a, n, i);
	}

	int end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		--end;
	}
}

int main()
{
	int a[] = { 4, 6, 2, 1, 5, 8, 2, 9 };

	HeapSort(a, sizeof(a)/sizeof(int));

	for (int i = 0; i < sizeof(a)/sizeof(int); i++)
	{
		printf("%d ", a[i]);
	}
	printf("\n");

	return 0;
}

3.4.2 利用堆解决TOP-K问题

TOP-K问题：即求数据结合中前K个最大的元素或者最小的元素，一般情况下数据量都比较大。
比如：专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题，能想到的最简单直接的方式就是排序，但是：如果数据量非常大，排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

最佳的方式就是用堆来解决，基本思路如下：
        1. 用数据集合中前K个元素来建堆
                前k个最大的元素，则建小堆
                前k个最小的元素，则建大堆
        2. 用剩余的N-K个元素依次与堆顶元素来比较，不满足则替换堆顶元素

        将剩余N-K个元素依次与堆顶元素比完之后，堆中剩余的K个元素就是所求的前K个最小或者最大的元素

eg：从一百万个数据中选出最大的五个数据
#define _CRT_SECURE_NO_WARNINGS 1
#include<stdio.h>
#include<stdlib.h>
#include<assert.h>
#include<stdbool.h>
#include<time.h>
typedef int HPDataType;

void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}
void AdjustUp(HPDataType* a, int child)
{
	int parent = (child - 1) / 2;

	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}
void AdjustDown(HPDataType* a, int size, int parent)
{
	int child = parent * 2 + 1;

	while (child < size)
	{

		if (child + 1 < size && a[child + 1] < a[child])
		{
			++child;
		}

		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

void CreateNDate()
{
	// 造数据
	int n = 10000000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL)
	{
		perror("fopen error");
		return;
	}

	for (int i = 0; i < n; ++i)
	{
		int x = (rand() + i) % 10000000;
		fprintf(fin, "%d\n", x);
	}

	fclose(fin);
}

void PrintTopK(const char* file, int k)
{
	FILE* fout = fopen(file, "r");
	if (fout == NULL)
	{
		perror("fopen error");
		return;
	}

	// 建一个k个数小堆
	int* minheap = (int*)malloc(sizeof(int) * k);
	if (minheap == NULL)
	{
		perror("malloc error");
		return;
	}

	// 读取前k个，建小堆
	for (int i = 0; i < k; i++)
	{
		fscanf(fout, "%d", &minheap[i]);
		AdjustUp(minheap, i);
	}

	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > minheap[0])
		{
			minheap[0] = x;
			AdjustDown(minheap, k, 0);
		}
	}

	for (int i = 0; i < k; i++)
	{
		printf("%d ", minheap[i]);
	}
	printf("\n");

	free(minheap);
	fclose(fout);
}


int main()
{
	CreateNDate();
	PrintTopK("data.txt", 5);

}
结果如上，如果你想更直观的看到前k个数的值，你可以在创建的文件中进行修改数字，修改出5个比一百万大的数字就可以了。

希望这篇文章对你有所帮助！！！

数据结构与算法--特殊的完全二叉树--堆，堆排序，利用堆解决topk的问题

前言

1.树概念及结构

1.1树的概念

1.2 树的相关概念

1.3 树的表示

1.4 树在实际中的运用（表示文件系统的目录树结构）

2.二叉树概念及结构

2.1概念

2.2现实中的二叉树：

2.3 特殊的二叉树：

2.4 二叉树的性质

2.5 二叉树的存储结构

3.堆

3.1 为什么单独讲堆

3.2 堆的概念及结构

3.3 堆的实现

3.2.1 堆的建立

3.2.2 堆向下调整算法

3.2.3 堆向上调整算法

3.2.4 使用向下调整算法建大堆

3.2.4.1利用向下调整算法的时间复杂度：O(N)。

3.2.4.2利用向上调整算法的时间复杂度：O(NlogN)

3.2.5 插入节点

3.2.6 删除节点

3.4 堆的应用

3.4.1 堆排序

3.4.2 利用堆解决TOP-K问题

猜你喜欢