从海量数值中找出最大的N个元素的算法实现 - 代码天地

从海量数值中找出最大的N个元素的算法实现

其他 2018-08-02 01:00:47 阅读次数: 0

本例要求

一个文件中存有海量（大小超过40W）Long类型数值，每个数值一行，且各不相同
堆内存大小4M
以最快方式找出海量数值中最大的前100个数值，限时2s以内

解题思路

首先，肯定不能将海量数据压入TreeSet中进行排序，这样会造成堆内存溢出。
首先想到的是，采用TreeSet，维护一个小顶堆，堆里只有k个元素，从而保证堆内存不溢出。然后将后面的元素压入堆中，基于TreeSet的排序功能排序后，poll掉最上面的一个元素（最小元素）。
其实JDK1.5以后还提供了PriorityQueue，如果海量数据里有重复数据，建议采用该优先级队列，因为TreeSet是不能存放重复数据的。

代码实现

public class FindTopN {
    /**
     * 从文件中找出最大的前N个数值
     *
     * @param filePath 文件路径
     * @param n
     * @return
     */
    public Long[] findTopN(String filePath, int n) throws IOException {
        File srcFile = new File(filePath);
        if (!srcFile.exists()) {
            throw new IllegalArgumentException("File not exist at filepath [" + filePath + "]");
        }
        //创建一个小顶堆的TreeSet
        TreeSet<Long> minHeap = new TreeSet<>();
        //按行读取文件内容
        LineIterator iterator = FileUtils.lineIterator(srcFile, "UTF-8");
        while (iterator.hasNext()) {
            String line = iterator.nextLine();
            if (StringUtils.isNotEmpty(line)) {
                Long number = Long.parseLong(line);
                minHeap.add(number);
                if (minHeap.size() > n) {
                    minHeap.pollFirst();
                }
            }
        }
        iterator.close();
        return minHeap.toArray(new Long[]{});
    }
}

猜你喜欢

转载自blog.csdn.net/twypx/article/details/80649340

从海量数值中找出最大的N个元素的算法实现

在某个集合中找出最大或最小的N个元素

python 找出最小或最大的n个元素

设计一个算法从数 A[1：n] 中同时找出最大元素和最小元素，只需要不超过 1.5n－2 次比较。

在由N个正整数的集合S中，找出最大元素C，满足C=A + B

给出一个分治算法来找出n个元素序列中第2大的元素

100亿个数中找出最大的前K个数（海量数据topK问题）

找出数组a[n]中一个既不是最大也不是最小的元素

海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

从数组中找出两个元素的和等于指定数值，并输出位置。

golang实现算法-找出旋转数组中的最小元素

给定数组A[0..n-1]，试设计一个算法，在最坏情况下用n+logn次比较找出A[0..n-1]中元素的最大值和次大值

算法设计与分析（第一篇）（分治与递归）（二分查找）在n+logn-2次比较中找出a[n]的最大元素与次大元素

找出数组中最大的元素—Java实现

海量数据处理 - 找出最大的n个数（top K问题）

n个整数中找出连续m个数加和是最大

n个整数中找出连续m个数加和最大

从海量订单中利用Map Reduce获取Top N的较优算法实现应用程序

如何寻找一个数值数组中的最大元素？

算法探索_数组中的第K个最大元素

找到最大或最小的N个元素

查找最大或最小的 N 个元素

1.4 查找最大或最小的 N 个元素

设计一个最优算法来查找一n个元素数组中的最大值和最小值

js实现算法：找出数组中和为给定值的两个元素

从n个数中找出最小(or最大)的k个数

算法（17）定义一个整数数组，找出连续3个元素之和是最大的，并输出这三个元素。

找出数组[1...n]中第k小元素

怎样从一个集合中获得最大或者最小的 N 个元素列表？

算法-找出数组中两个元素之和等于给定的目标值

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)