问答

  1. 背包问题(动态规划问题)
  2. 海量日志数据,提取出某日访问百度次数最多的那个IP。

答:Hash可以通过散列函数将任意长度的输入变成固定长度的输出,也可以将不同的输入映射成为相同的输出,而且这些输出范围也是可控制的,所以起到了很好的压缩映射和等价映射功能。

Hash算法在海量数据处理方 案中的应用

https://www.cnblogs.com/bjxsky/p/4622660.html

采取分而治之的方法,将海量数据切分为若干小份来进行处理,并且在处理的过程中要兼顾内存的使用情况和处理并发量情况。而更加仔细的处理流程大体上分为几步(对大多数情况都使用,其中少部分情况要根据你自己的实际情况和其他解决方法做比较采用最符合实际的方法):

采用Hash取模进行等价映射。采用这种方法可以将巨大的文件进行等价分割(注意:符合一定规律的数据要被分割到同一个小文件)变成若干个小文件再进行处理。这个方法针对数据量巨大,内存受到限制时十分有效。

  • 第二步:利用hashMap在内存中进行统计。

我们通过Hash映射将大文件分割为小文件后,就可以采用HashMap这样的存储结构来对小文件中的关注项进行频率统计。具体的做法是将要进行统计的Item作为HashMap的key,此Item出现的次数作为value。

猜你喜欢

转载自www.cnblogs.com/FMOON/p/9287508.html