大数据量下排序算法小结 - 代码天地

大数据量下排序算法小结

其他 2018-07-29 01:29:47 阅读次数: 0

堆排序和快速排序的比较

堆排序是接近nlgn的下界，而快排有性能坏的情况，为何还是快排表现更优秀呢？

1.堆排序是处理数组中相隔较远的数据，快速排序是根据两个指针按序遍历的，根据寄存器、高速缓存的热cache、局部性原理，快排更好

2.快排的极端情况太难复现，而且可以用随机基准数

3.快排还有各种优化的方案

基数排序的性能

在低数据量的时候，性能很不错；但是非常占内存。一般我们不会采取高内存换空间的算法（数据量大的时候就太恐怖了）

综合性能

数据多到内存装不下怎么办？

（假设内存有100M容量）比如1G的数据，分10份，每份100M。先用快排让每一份各自排好序，然后写到文件中。这10份100M的文件这个时候已经有序了。这10份每份取9M，一共90M，使得他们合并。合并后的结果放到10M的缓存区中，满了就clear，IO到文件中。

一百、一万、一亿选取什么算法最好？

100可以基数、桶，这些很占内存，而且有一些限制条件，但是很快！

10000可以快排

一亿只能快排（因为热cache，所以比堆排序好）+归并（数据太大装不下）

大部分数据有序的情况下，用什么算法比较好？

插入+二分。

从大量数据中取出前100个

第一反应是开始做题吗？no，大量数据，内存肯定是装不下的。那我们就假设所有数据被分成了N份吧。

先看第一份，排序前100个，然后后面的数都插入+二分去修改前100个数。

一份读完，就clear后面的数，加载新的文件进来。

这样一次遍历就解决了。

https://blog.csdn.net/ztkhhhhhd/article/details/53138631

https://blog.csdn.net/zhushuai1221/article/details/51781002

这两篇待学习

猜你喜欢

转载自blog.csdn.net/qq_36523667/article/details/81193657

大数据量下排序算法小结

mongoDB 大数据量排序索引

PHP排序大数据量分页

超大数据量排序

【转】大数据量算法

excel大数据量处理小结（excel07）

大数据量下查询显示优化大数据量下查询显示优化方案小结

大数据量下载

大数据量处理

大数据量开发

大数据量查询

大数据量插入

大数据量的存储分表常见算法

解决大数据量的查询优化

excel大数据量解析

ORACLE sqlldr 大数据量导入

JAVA读大数据量Excel

mysql 大数据量迁移

使用大数据量的collection

面对大数据量的优化

大数据量重复校验

大数据量下载excel

大数据量处理(转载)

Mysql大数据量查询优化

POI读写大数据量EXCEL

redis pipe大数据量导入

Jcs对大数据量的处理方案

大数据量并发策略

jdbc大数据量查询优化

大数据量转存（抽取、同步）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)