文件的合并

1. 如何实现小文件的合并

先将这些小文件保存到本地的一个路径中同一个文件中，通过shell脚本，可以设置这个新文件达到多大再上传，一般设置为128M，上传到HDFS中，这样就实现了小文件上传之前的合并。还有，一般当天的日志和数据都存在一个HDFS路径中，如果没有达到上传大小，可以设置每天凌晨对前一天的本地文件路径的扫描，如果发现有文件，不管多大，都上传到前一天的HDFS文件目录下。

2. 两个文件合并的问题
给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？主要的思想是把文件分开进行计算，在对每个文件进行对比，得出相同的URL,因为以上说是含有相同的URL所以不用考虑数据倾斜的问题。详细的解题思路为：可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可。

1. 如何实现小文件的合并

2. 两个文件合并的问题

猜你喜欢