常识: IO读取 (硬盘读取文件的速度在500M左右)
1T文件需要读取30分钟
1T大文件有很多行,只有两行内容完全一致,问 怎么找出 那行重复的数据?
readline . hash % 500
==>生成500小文件
相同行被分到了同一个小文件中了
一定相邻, hash找,就好办了
---------------如果是1 T的 无序的数字文件呢?
==> 桶排序 (只是此处的桶变成了文件)
常识: IO读取 (硬盘读取文件的速度在500M左右)
1T文件需要读取30分钟
1T大文件有很多行,只有两行内容完全一致,问 怎么找出 那行重复的数据?
readline . hash % 500
==>生成500小文件
相同行被分到了同一个小文件中了
一定相邻, hash找,就好办了
---------------如果是1 T的 无序的数字文件呢?
==> 桶排序 (只是此处的桶变成了文件)