アルゴリズムソリューション:K(トップK膨大なデータの問題)の最小数

タイトル

入力nは整数、最小の数kを見つけます。4,5,1,6,2,7,3,8例えば8つのデジタル入力、最小数は4 1,2,3,4です。

ファーストルック

この質問は数kを入力nは整数、kの最小数のソート後の先頭に配置されているよりも、最も単純な考えです。このアプローチは、(N-Oである時間の複雑さを持っているログ N-)。

溶液:O(N)アルゴリズムの生まれ速い行

k番目の数値より全ての数は、アレイの左側に配置されるように、数字のk番目の配列に基づいて調整した場合、最初のk個の数字よりも大きい全ての数値は、アレイの右側に配置されています。この調整では、アレイは、左の桁に位置する最小のk個のk個の番号(必ずしも順序付けされていないK桁)です。ここでの考え方は、この参照コードに基づいています。

public class LeastK {

    public static void getLeastNumbers(int[] input, int[] output) {
        if (input == null || output == null || output.length <= 0 || input.length < output.length) {
            throw new IllegalArgumentException("Invalid args");
        }

        int start = 0;
        int end = input.length - 1;
        int index = partition(input, start, end); //切分后左子数组的长度
        int target = output.length - 1; //K-1

        //若切分后左子数组长度不等于K
        while (index != target) {
            //若切分后左子数组长度小于K,那么继续切分右子数组,否则继续切分左子数组
            if (index < target) {
                start = index + 1;
            } else {
                end = index - 1;
            }
            index = partition(input, start, end);
        }

        System.arraycopy(input, 0, output, 0, output.length);
    }

    private static int partition(int arr[], int left, int right) {
        int i = left;
        int j = right + 1;
        int pivot = arr[left];

        while (true) {
            //找到左边大于pivot的数据,或者走到了最右边仍然没有找到比pivot大的数据
            while (i < right && arr[++i] < pivot) { //求最大的k个数时,arr[++i] > pivot
                if (i == right) {
                    break;
                }
            }
            //找到右边小于pivot的数据,或者走到了最左边仍然没有找到比pivot小的数据
            while (j > left && arr[--j] > pivot) { //求最大的k个数时,arr[--j] < pivot
                if (j == left) {
                    break;
                }
            }
            //左指针和右指针重叠或相遇,结束循环
            if (i >= j) {
                break;
            }
            //交换左边大的和右边小的数据
            swap(arr, i, j);
        }
        //此时的 a[j] <= pivot,交换之
        swap(arr, left, j);
        return j;
    }

    private static void swap(int[] arr, int i, int j) {
        int tmp = arr[i];
        arr[i] = arr[j];
        arr[j] = tmp;
    }

}

上記アイデアを機能パーティションは、アレイを注文しますので、当然のことながら、この問題は、新しい配列のコピーによって事前に解決することができ、このような入力配列を変更する必要があるとして、限定されています。注目に値するが、このアイデアは、大量のデータを扱うのに適していないということです。データは、kの最小数のために多くの問題が発生した場合、以下の溶液を使用することができます。

対処方法2:データOの膨大な量を処理するための(N- ログ K)のアルゴリズム

我々は、我々は、入力nは整数の数からそれぞれ読み出し時間、最小数kを格納されたサイズのKデータのコンテナを作成することができます。コンテナはkよりもデジタル少ないにすでにある場合は、直接の容器内の整数の場所に読み込ま;コンテナは、k個の数字となっている場合、つまり、コンテナはその後、私たちはもはや新しい挿入することはできません、いっぱいです数値は、既存のデジタルに置き換えることができます。これは、kの最大数を見つける必要があり、その後、整数との比較のために挿入される最大値をとります。従来の最大電流より挿入される値が小さい場合は、現在の最大値は、既存の使用にこの番号を交換し、値が現在の最大値よりも大きい既存の、次に可能な最小数に挿入される場合1つの整数kが、私たちは、この整数を放棄することができます。

そのため、コンテナが満杯になったとき、我々は3つのことを行う必要があります。まず、k個の整数の最大数を見つける;第二は、このコンテナ内の削除の可能性の最大数であり、第三に、新しい番号を挿入することが可能になります。あなたはこれを達成するために、バイナリツリーデータコンテナを使用する場合は、我々は(Oにすることができますログイン時間3段階kの中にこれを達成)。n個の入力番号のように、時間の全効率はO(nはログ K)を。

私たちは、この容器を達成するために、異なるバイナリデータを使用するように選択することができます。それぞれが整数kの最大数を見つける必要があるので、我々は簡単に最大ヒープを使用して考えることができます。最大スタックは、ルートノードの値は、サブツリー内の任意のノードの値よりも常に大きいです。だから私たちは、それぞれ(1)、k個のOで得られた最大値を持っているが、それはO(必要と理解することができますログの削除や挿入操作を完了するために、k)を時間を。

最大スタックを達成するために、最初から私たち自身は、わずか数十分のインタビューの中で達成することは困難である特定のコードが必要です。我々はまた、Javaが提供して優先順位を当社のコンテナキューを使用して達成することができます。

public class LeastK {
  
    public static Integer[] getLeastNumbers(int[] nums, int k) {
        // 默认自然排序,需手动转为降序
        PriorityQueue<Integer> maxQueue = new PriorityQueue<>(k, new Comparator<Integer>() {
            @Override
            public int compare(Integer o1, Integer o2) {
                if (o1 > o2) {
                    return -1;
                } else if (o1 < o2) {
                    return 1;
                }
                return 0;
            }
        });
        for (int num : nums) {
            if (maxQueue.size() < k || num < maxQueue.peek()) { // peek():返回队列头部的值,也就是队列最大值
                // 插入元素
                maxQueue.offer(num);
            }
            if (maxQueue.size() > k) {
                // 删除队列头部
                maxQueue.poll();
            }
        }
        return maxQueue.toArray(new Integer[0]);
    }
  
}

トップK大規模なデータ要件

20億のデジタルテキストから、最初の100の最大値を見つける:トップKはインタビューで問題となって頻繁ような質問を、尋ねました。

このような問題は、大量のデータkの最大数を求めた場合、参照は以下を達成するために、kの最小必要数、Javaコードの上であってもよい遭遇しました。

public class TopK {
  
    public Integer[] getLargestNumbers(int[] nums, int k) {
        PriorityQueue<Integer> minQueue = new PriorityQueue<>(k); // 默认自然排序
        for (int num : nums) {
            if (minQueue.size() < k || num > minQueue.peek()) { // peek():返回队列头部的值,也就是队列最小值
                // 插入元素
                minQueue.offer(num);
            }
            if (minQueue.size() > k) {
                // 删除队列头部
                minQueue.poll();
            }
        }
        return minQueue.toArray(new Integer[0]);
    }
  
}

ソースコードの最大ヒープ

ソースコードの実現の最大ヒープより興味を持っている場合は、次のコードの自己学習を参照することができます。

public class MaxHeapAndTopK {
  
    /**
     * 大顶堆
     *
     * @param <T> 参数化类型
     */
    private final static class MaxHeap<T extends Comparable<T>> {
        // 堆中元素存放的集合
        private List<T> items;
        // 用于计数
        private int cursor;

        /**
         * 构造一个椎,始大小是32
         */
        public MaxHeap() {
            this(32);
        }

        /**
         * 造诣一个指定初始大小的堆
         *
         * @param size 初始大小
         */
        public MaxHeap(int size) {
            items = new ArrayList<>(size);
            cursor = -1;
        }

        /**
         * 向上调整堆
         *
         * @param index 被上移元素的起始位置
         */
        public void siftUp(int index) {
            T intent = items.get(index); // 获取开始调整的元素对象

            while (index > 0) { // 如果不是根元素
                int parentIndex = (index - 1) / 2; // 找父元素对象的位置
                T parent = items.get(parentIndex);  // 获取父元素对象
                if (intent.compareTo(parent) > 0) { //上移的条件,子节点比父节点大
                    items.set(index, parent); // 将父节点向下放
                    index = parentIndex; // 记录父节点下放的位置
                } else { // 子节点不比父节点大,说明父子路径已经按从大到小排好顺序了,不需要调整了
                    break;
                }
            }

            // index此时记录是的最后一个被下放的父节点的位置(也可能是自身),所以将最开始的调整的元素值放入index位置即可
            items.set(index, intent);
        }

        /**
         * 向下调整堆
         *
         * @param index 被下移的元素的起始位置
         */
        public void siftDown(int index) {
            T intent = items.get(index);  // 获取开始调整的元素对象
            int leftIndex = 2 * index + 1; // // 获取开始调整的元素对象的左子结点的元素位置

            while (leftIndex < items.size()) { // 如果有左子结点
                T maxChild = items.get(leftIndex); // 取左子结点的元素对象,并且假定其为两个子结点中最大的
                int maxIndex = leftIndex; // 两个子节点中最大节点元素的位置,假定开始时为左子结点的位置

                int rightIndex = leftIndex + 1;  // 获取右子结点的位置
                if (rightIndex < items.size()) {  // 如果有右子结点
                    T rightChild = items.get(rightIndex);  // 获取右子结点的元素对象
                    if (rightChild.compareTo(maxChild) > 0) {  // 找出两个子节点中的最大子结点
                        maxChild = rightChild;
                        maxIndex = rightIndex;
                    }
                }

                // 如果最大子节点比父节点大,则需要向下调整
                if (maxChild.compareTo(intent) > 0) {
                    items.set(index, maxChild); // 将子节点向上移
                    index = maxIndex; // 记录上移节点的位置
                    leftIndex = index * 2 + 1; // 找到上移节点的左子节点的位置
                } else { // 最大子节点不比父节点大,说明父子路径已经按从大到小排好顺序了,不需要调整了
                    break;
                }
            }

            // index此时记录是的最后一个被上移的子节点的位置(也可能是自身),所以将最开始的调整的元素值放入index位置即可
            items.set(index, intent);
        }

        /**
         * 向堆中添加一个元素
         *
         * @param item 等待添加的元素
         */
        public void add(T item) {
            items.add(item); // 将元素添加到最后
            siftUp(items.size() - 1); // 循环上移,以完成重构
        }

        /**
         * 删除堆顶元素
         *
         * @return 堆顶部的元素
         */
        public T deleteTop() {
            if (items.isEmpty()) { // 如果堆已经为空,就报出异常
                throw new RuntimeException("The heap is empty.");
            }

            T maxItem = items.get(0); // 获取堆顶元素
            T lastItem = items.remove(items.size() - 1); // 删除最后一个元素
            if (items.isEmpty()) { // 删除元素后,如果堆为空的情况,说明删除的元素也是堆顶元素
                return lastItem;
            }

            items.set(0, lastItem); // 将删除的元素放入堆顶
            siftDown(0); // 自上向下调整堆
            return maxItem; // 返回堆顶元素
        }

        /**
         * 获取下一个元素
         *
         * @return 下一个元素对象
         */
        public T next() {

            if (cursor >= items.size()) {
                throw new RuntimeException("No more element");
            }
            return items.get(cursor);

        }

        /**
         * 判断堆中是否还有下一个元素
         *
         * @return true堆中还有下一个元素,false堆中无下五元素
         */
        public boolean hasNext() {
            cursor++;
            return cursor < items.size();
        }

        /**
         * 获取堆中的第一个元素
         *
         * @return 堆中的第一个元素
         */
        public T first() {
            if (items.size() == 0) {
                throw new RuntimeException("The heap is empty.");
            }
            return items.get(0);
        }

        /**
         * 判断堆是否为空
         *
         * @return true是,false否
         */
        public boolean isEmpty() {
            return items.isEmpty();
        }

        /**
         * 获取堆的大小
         *
         * @return 堆的大小
         */
        public int size() {
            return items.size();
        }

        /**
         * 清空堆
         */
        public void clear() {
            items.clear();
        }

        @Override
        public String toString() {
            return items.toString();
        }
    }

    /**
     * 题目: 输入n个整数,找出其中最小的k个数
     *
     * @param input  输入数组
     * @param output 输出数组
     */
    public static void getLeastNumbers(int[] input, int[] output) {
        if (input == null || output == null || output.length <= 0 || input.length < output.length) {
            throw new IllegalArgumentException("Invalid args");
        }

        MaxHeap<Integer> maxHeap = new MaxHeap<>(output.length);
        for (int i : input) {
            if (maxHeap.size() < output.length) {
                maxHeap.add(i);
            } else {
                int max = maxHeap.first();
                if (max > i) {
                    maxHeap.deleteTop();
                    maxHeap.add(i);
                }
            }
        }

        for (int i = 0; maxHeap.hasNext(); i++) {
            output[i] = maxHeap.next();
        }
    }
  
}

参考資料

[1]「オファーは安全性を証明するために」

おすすめ

転載: www.cnblogs.com/yueshutong/p/11628741.html