场景二：亿万级数据取前TOP K / 后TOP K 数据

场景一：解决前K个高频元素需要解决如下几个问题：

1.记录每一个元素出现的频率（解决方法：使用hashmap来记录元素出现个数）

2.对出现频率次数进行排序（解决方法：使用优先级队列建立小根堆来进行排序）

3.选择前K个排序大的元素（解决方法：遍历小根堆前K个元素并逆序打印，因为小顶堆先弹出的是最小的，所以倒序来输出到数组）

问题1：记录出现频率使用hashmap记录次数即可，这里就不过多阐述

问题2：对出现频率次数进行排序使用小根堆来解决问题

优先级队列PriorityQueue

优先级队列PriorityQueue就是一个披着队列外衣的堆，因为优先级队列对外接口只是从队头取元素，从队尾添加元素，再无其他取元素的方式，看起来就是一个队列。

而且优先级队列内部元素是自动依照元素的权值排列。那么它是如何有序排列的呢？

缺省情况下PriorityQueue利用max-heap（大顶堆）完成对元素的排序，这个大顶堆是以vector为表现形式的complete binary tree（完全二叉树）。

堆的定义

堆是一棵完全二叉树，树中每个结点的值都不小于（或不大于）其左右孩子的值。如果父亲结点是大于等于左右孩子就是大根堆，小于等于左右孩子就是小根堆。

所以大家经常说的大根堆（堆头是最大元素），小根堆（堆头是最小元素）。

如果自己不想代码实现堆的话，就可以直接使用PriorityQueue（优先级队列）就可以了，底层实现都是一样的，从小到大排就是小根堆，从大到小排就是大根堆。

取最大前TOP K 高频元素就使用优先级队列建立小根堆

原因：定义一个大小为k的大根堆，在每次移动更新大根堆的时候，每次弹出都把最大的元素弹出去了，那么怎么保留下来前K个高频元素呢。

因此取前TOP K 高频元素就需要建立小根堆,因为小根堆每次更新元素时都是把最小元素弹出去，这样最大元素就保留下来了

取最小前TOP K 元素就使用优先级队列建立大根堆

原因：大根堆每次更新元素都是把最大元素弹出去，这样最小元素就保留下来了

问题3：打印前K个高频元素

因为小根堆元素的堆顶元素是最小的，遍历小根堆元素时是从小到大遍历的，小根堆弹出元素先是最小元素弹出，取前K个高频元素就需要逆序打印元素

题目链接

力扣题目：347. 前 K 个高频元素

代码如下：

class Solution {
    public int[] topKFrequent(int[] nums, int k) {
        //思路：使用map记录每个元素的次数，利用优先级队列建立小根堆来解决TOP K问题
        // 大根堆（堆头是最大元素，从大到小排），小根堆（堆头是最小元素，从小到大排）
        Map<Integer,Integer> map = new HashMap<>();
        for(int num : nums){
            map.put(num,map.getOrDefault(num,0)+1);
        }
      
      //建立小根堆（每次插入元素都把最小元素弹出去，即最后保留下来的元素都是大元素）
        PriorityQueue<Integer> queue = new PriorityQueue<>((a,b) -> map.get(a) - map.get(b)); //lambda表达式
        for(int key : map.keySet()){ //keySet()为返回所有 key 的不重复集合
            queue.offer(key);
            if(queue.size() > k){
                queue.poll();
            }
        }

        //打印小根堆前K个元素，因为小根堆先弹出的是最小的，所以倒序来输出到数组
        int[] array = new int[k];
        for(int i=k-1;i >=0;i--){
            array[i] = queue.poll();
        }
        return array;
    }
}

场景二：亿万级数据取前TOP K / 后TOP K 数据

在亿万级数据时，不可能一个一个数据排序再去取前TOP K 数据，这会大大降低效率。

有效的方法：

1、先将这亿万数据划分为一定数量的大分区，每个大分区的数据量相同，然后再把每个大分区进行划分一定数量的小分区，每个小分区数据量相同。

2、对于每一个小分区使用小根堆或者大根堆来得到前TOP K 或者后TOP K 数据元素，最后再合并一个大分区里面所有的小分区

3、然后使用小根堆或者大根堆得到每一个大分区的TOP K元素，最后在进行大分区合并使用小根堆或者大根堆来得到TOP K 数据。

注意：若亿万数据有许多重复值，可以先使用HashSet 进行去除重复元素再进行上述操作。

对于海量数据处理取TOP K 数据，思路基本上是：必须分块处理，然后再合并起来。

优先级队列建立小根堆来解决前K个高频元素（TOP K问题）

场景一：解决前K个高频元素需要解决如下几个问题：

优先级队列PriorityQueue

堆的定义

题目链接

场景二：亿万级数据取前TOP K / 后TOP K 数据

猜你喜欢