数字中找前K大/小的元素的几种方法

方法一：根据快速排序划分的思想：

(1) 递归对所有数据分成[a,b）b（b,d]两个区间，(b,d]区间内的数都是大于[a,b)区间内的数；
(2) 对(b,d]重复(1)操作，直到最右边的区间个数小于100个。

   注意[a,b)区间不用划分 ；因为[a,b)区间一定小于(b,d]区间；

(3) 返回上一个区间，并返回此区间的数字数目。

 如果个数大于100，对(b,d]重复(1)操作，直到最右边的区间个数小于100个；

 如果个数小于100，对上一区间的左边进行划分，分为[a2,b2）b2（b2,d2]两个区间，取（b2,d2]区间。

 如果个数超过100的就重复1操作，直到最后右边只有100个数为止。 时间复杂度为：O(N)

方法二：维护一个K个元素的堆：

    先取出前100个数，维护一个100个数的最小堆，遍历一遍剩余的元素，在此过程中维护堆就可以了。

具体步骤如下：

     第一：取前K个元素（例如m=100），建立一个小顶堆。保持一个小顶堆得性质的步骤，运行时间为O(lgK);建立一个小顶堆运行时间为K*O（lgK）=O(KlgK);       
     第二：顺序读取后续元素，直到结束。每次读取一个元素，如果该元素比堆顶元素小，直接丢弃 ；如果大于堆顶元素，则用该元素替换堆顶元素，然后保持最小堆性质。最坏情况是每次都需要替换掉堆顶的最小元素，因此需要维护堆的代价为(N-K)*O(lgK); 
      最后这个堆中的元素就是前K最大的K个元素。时间复杂度为O(N lgK）。

方法三：维护一个K个元素的数组：

这种思想类似与思想二，如果在查找比较的时候用二分查找，也可以使时间复杂度变为：O(NlgK)。只不过因为数组时顺序存储，当需要插入更新数据的时候需要移动K个数据，移动的次数变得很多，操作变得复杂。如果是堆，移动的次数最多也是lgK次。所以在这方面堆的效率比数组高。

方法四：分块查找：

如果数据有100W个，求取前100个数据。那么我们可以用分治法的思想，其实对于大量的数据一般都是分治法。大而化小，小而化简，各个击破。最后在组合。因为数据是无限的，而我们的处理资源硬件是有限的，所以必须的分割处理。

方法是：先把100w个数分成100份，每份1w个数。先分别找出每1w个数里面的最大的数，然后比较。找出100个最大的数中的最大的数和最小的数，取最大数的这组的第二大的数，与最小的数比较。如果第二大的数比最小的数大，那么这样就一下砍掉1W个数了；如果第二大的数比最小的数小，那么也可以砍掉9999个数，剩下的肯定不是前100个中的。类似这样可以解决此问题。

个人觉得，现在的计算讲究分布式，并行处理，最后一种方法其实才是实用中最快的。

扫描二维码关注公众号，回复： 2669152 查看本文章

数字中找前K大/小的元素的几种方法

猜你喜欢