外部排序算法 - 代码天地

外部排序算法

其他 2020-09-24 10:56:00 阅读次数: 0

1. 桶排序（bucket sort）

概述

当待排序的数据范围变化很小时，假设最小值为min，最大值为max，那么我们可以创建max-min+1个Bucket用于统计每个数出现的次数。排序的时候只需要每次执行读文件的操作，并将读到的数据对应桶的技术加1即可。在输出的时候，按照min到max的顺序依次将桶中的数据（如果数据出现多次，也需要写入多次）写入输出文件即可。

适用场景

待排序数据分布在一个小的范围内，如高考几百万个考生考试分数的排序

2. 位图（bit-map）

概述

位图是一种通过使用每一位（bit）表示一个数，从而减少内存使用量的方法。BitMap中的某一位为1表示其对应的数存在，为0表示其对应的数不存在。排序的时候，我们先创建BitMap（BitMap可以自己实现），然后依次从文件中读入数值，将BitMap对应位设置为1。在输出时，我们从BitMap的低位到最高位，依次判断当前位是否为1，如果为1，那么就将对应的数值写入输出文件。

适用场景

待排序数据不存在重复，如对几千万个电话号码进行排序、找出几亿个整数中不重复的整数的个数（使用两个bits表示一个数，0表示没有出现、1表示出现一次、2表示出现多次）

3. 多路归并（merge sort）

概述

多路归并的基本思路和归并排序一样，其实归并排序就是2路归并。我们使用内部排序算法（快速排序等）对划分的K个部分（保证每个部分的数据都能装载到内存中）分别进行排序，并将排序后的结果存储到k个临时文件中，在最后使用简单选择或者败者树的方式进行归并，将数值写入输出文件。

K增大对性能的影响

假设待排序的数据需要划分为8段，才能使得每一段都能够全部装载到内存中，以2路归并排序和8路归并排序为例，讨论K增大对性能的影响。

首先8路归并很好分析，对所有数据只需要2次读操作和2次写操作。第一次读操作为将数据从原始文件中读入内存进行内部排序，第一次写操作为将部分排序的数据写入临时文件。第二次读操作为将部分排序的数据读入内存进行归并，并在每一次选择到当前最小值时将其写入输出文件。

而对于2路归并而言，对所有数据需要4次读操作和4次写操作，分析过程和8路归并排序类似，不再赘述。

规律：对于K路归并排序而言，所有数据需要执行的读操作和写操作的次数为lg_k(n) + 1，其中n为总段数，k为每次归并的段数。也就是说K越大，文件读写操作越少，归并算法性能越好。

简单选择和败者树的比较

简单选择是从K个数中通过比较的方式选择出最小的一个，然后写入输出文件，每次选择的时间复杂度为O(k)，显然随着K的增大，此过程的时间开销会线性增长。

败者树也是从K个数中选择出最小的一个，然后写入输出文件，不同的是每次选择的时间复杂度为O(lgK)。

结论：使用败者树能够优化归并过程

适用场景

所有需要进行外部排序的场景

猜你喜欢

转载自blog.csdn.net/a16302010048/article/details/103845669

外部排序算法总结

算法：外部排序

外部排序算法

排序算法之归并排序和外部排序

外部排序

外部排序（）

排序之外部排序

内部排序与外部排序

排序（二) 外部排序

排序 —— 外部排序

插入排序-希尔排序-选择排序-冒泡排序-快速排序-基数排序-外部排序-归并排序[数据结构与算法]

归并排序 && 外部排序

[排序] 0 外部排序-总结

常用的外部排序方法

Golang: 外部排序项目

漫画: 什么是外部排序?

漫画：什么是外部排序？

大数外部排序

外部排序--复习

数据结构与算法-Chapter10-外部排序-练习题

算法与数据结构【30天】集训营——外部排序的原理及代码详解及排序课后习题解析（26）

完整java实现外部排序

libtiff 内部排序和外部排序

内部排序与外部排序简单比较

外部排序（多路归并排序）

排序算法大全集，从时间复杂度和空间复杂度上对各个排序算法进一步的分析和评估，从插入排序、交换排序、归并排序、基数排序到外部排序，通晓堆排序、希尔排序、快速排序等算法

【数据结构】外部排序、多路平衡归并与败者树、置换-选择排序（生成初始归并段）、最佳归并树算法

桶排序与基数排序与外部排序(C++)

《算法4》引入外部库

排序算法

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

ORACLE 跟踪文件详细解释

20190924-LeetCode解数独题目分享

分治法实例-找下标，下标与对应值相等

安全测试学习笔记

JavaScript笔记：原型和原型链

在Linux中检查可用内存的5种方法

BUAA_OO_JML

mongodb创建用户、备份、恢复等

生活20190602

使用MoveIt!配置软件包在RViz中进行机器人运动规划

每日归档

更多

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)