思维训练(分治)

常识: IO读取 (硬盘读取文件的速度在500M左右)
1T文件需要读取30分钟
1T大文件有很多行,只有两行内容完全一致,问 怎么找出 那行重复的数据?

readline . hash % 500

==>生成500小文件

相同行被分到了同一个小文件中了
一定相邻, hash找,就好办了

---------------如果是1 T的 无序的数字文件呢?

==> 桶排序 (只是此处的桶变成了文件)

猜你喜欢

转载自blog.csdn.net/xiaoxiaodechongzi/article/details/106026319
今日推荐