使用Hash法解决内存不足的海量查询

算法思想:分而治之+Hash

1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;

2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;

3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash_map,同时记录当前出现次数最多的那个ip地址;

4.可以得到1024个小文件中的出现次数最多的ip,再依据常规的排序算法得到总体上出现次数最多的ip;

猜你喜欢

转载自blog.csdn.net/weixin_38994840/article/details/82898661