Top K问题-海量元素取最大的前k个元素

在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最高的前k个数，或者从海量数据中找出最大的前k个数，这类问题通常被称为top K问题。例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载最高的前10首歌等。

eg：有1亿个浮点数，如果找出期中最大的10000个？

该题目解法有很多，以下逐个阐述
最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快速排序。但是在32位的机器上，每个float类型占4个字节，1亿个浮点数就要占用400MB的存储空间，对于一些可用内存小于400M的计算机而言，很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求（我机器内存都是8GB），该方法也并不高效，因为题目的目的是寻找出最大的10000个数即可，而排序却是将所有的元素都排序了，做了很多的无用功。

第三种方法是分治法，将1亿个数据分成100份，每份100万个数据，找到每份数据中最大的10000个，最后在剩下的100X10000个数据里面找出最大的10000个。如果100万数据选择足够理想，那么可以过滤掉1亿数据里面99%的数据。100万个数据里面查找最大的10000个数据的方法如下：用快速排序的方法，将数据分为2堆，如果大的那堆个数N大于10000个，继续对大堆快速排序一次分成2堆，如果大的那堆个数N大于10000个，继续对大堆快速排序一次分成2堆，如果大堆个数N小于10000个，就在小的那堆里面快速排序一次，找第10000-n大的数字；递归以上过程，就可以找到第1w大的数。参考上面的找出第1w大数字，就可以类似的方法找到前10000大数字了。此种方法需要每次的内存空间为10^6*4=4MB，一共需要101次这样的比较。
第五种方法采用小顶堆。首先读入前10000个数来创建大小为10000的最小堆，建堆的时间复杂度为O（mlogm）（m为数组的大小即为10000），然后遍历后续的数字，并于堆顶（最小）数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10000个数字。该算法的时间复杂度为O（nmlogm），空间复杂度是10000（常数）。

小顶堆可以参照前面的堆排序，解决top k问题是堆排序算法的一种延伸。
对于该种算法，假设一共是n个数，找前m个大的。第一次建堆并调整的时间大约为mlog(m)，那么对于剩下的每个元素，最坏的情况下就是每个都调整堆，堆调整一次的时间复杂度为log(m)，所以总的时间复杂度为（n-m）log(m) + mlog(m) = nlog(m)

小顶堆的方法是最直观的解决top k问题的方法，还有一种更为高效的方法：Quick Select算法。

在这里插入图片描述

阳光下的

发布了204 篇原创文章 · 获赞 40 · 访问量 34万+

他的留言板关注

Top K问题-海量元素取最大的前k个元素

eg：有1亿个浮点数，如果找出期中最大的10000个？

猜你喜欢