单机处理1T文件的计算方案 - 代码天地

单机处理1T文件的计算方案

其他 2019-05-09 14:23:03 阅读次数: 0

题目要求：1T大小的文件，按行存储，文件所有行中，只有两行是重复的，选出重复的行；提高的设备为一台计算机，内存可以选择128M，64M或256G
输入：1T文件
输出：重复的行
第一种方案：
思路：
分堆，缩小范围查找
加载一部分到内存中，按行读取，每一行取对应的hashcode，根据 (行hashcode)%2000 的值，，存放在对应的位置(0-1999)，重复的行肯定在同一个值中，遍历这2000个数组，找到重复的行。
共有两次读取I/O操作
第二种方案：
如果文件中存放的是乱序的数字，每一行一个数字，将所有的数字进行排序
思路：
按数值范围分组，组内快速排序，再追加
划分多个区间小文件，加载一部分到内存中，读取每一行，遍历文件，将读取的数字存放在对应的区间文件中，这些区间小文件是小文件区间有序，区间内无序，将这些文件一次读入内存，先快速排序，再追加到上一个文件末尾，这样，完成了全排序
共有两次I/O操作，比较次数繁琐
第三种方案：
如果文件中存放的是乱序的数字，每一行一个数字，将所有的数字进行排序
思路：按文件大小划分成多个块，在块内快速排序，然后归并实现全排序
先选取50M文件，加载到内存中，读取文件，进行快速排序，然后再加载50M文件，同样进行快速排序，这样，多个文件块就形成了块内有序，块间无序，然后再对这多个文件块进行归并排序，从而实现全排序
以上三种方案的简单示意图，如图所示：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/educationer/article/details/89682518

单机处理1T文件的计算方案

在老男孩学习python,1t

Python花式读取大文件(10g/50g/1t)遇到的性能问题（面试向）

Python花式读取大文件(10g/50g/1t)遇到的性能问题（面试向）

1T 软件开发视频资源分享

c盘能达到1T吗，为什么？

关于STC的1T和12T突然其来的纠结

1T和12T单片机的区别

关于软件延时指定us（1T和12T）

U盘都1T了，还要移动硬盘做什么

1T 8051指令流水线结构单片机,MCU

笔记本 7mm 1T以上大容量机械硬盘 HDD 选购

机械硬盘哪个好？买1T好还是2T好？注意别买到叠瓦盘

u盘上1T linux系统部署到4T硬盘，bios使用Legace启动（实践可用）

订阅号改版前福利｜必备碎片化学习资料，1T竟然还不要钱

【年中精选｜含源码】大数据真的能年薪百万？神级攻略1T不要钱

python拷贝到同事U盘内容，1T小电影看的我如痴如醉！

大数据就业指导：前景分析和学习方法【另附：1T全套视频资料】

JAVA转大数据的学习之路，就该这样走（内附1T大数据资料）

作为一个Android开发者，你迷茫了吗？（内附1T大数据学习资料）

About云双11两大福利：送书【9本】|送1T资源

Python有趣的开始！Python爬虫-pyspider框架的使用，美图爬满我1T的硬盘

LINUX大于2T分区,fdisk工具不支持GPT,强大分区工具parted支持1T以上

Hadoop-- 海量文件的分布式计算处理方案

单机大数据文件计算

阿里云国际版香港CN2测评月付9美元/30M带宽/1T流量

kafka问题集（二）：__consumer_offsets topic的分区中有一个分区数据很多，多达1T

全新安装一台虚拟机（1T的硬盘），安装OS时使用LVM分区，并使用逻辑卷扩容

018.redis 阶段性总结：1T 以上海量数据+10 万以上 QPS 高并发+ 99.99% 高可用

014. redis 如何在保持读写分离+高可用的架构下，还能横向扩容支撑 1T + 海量数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)