1.MapReduce原理
分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
问题1:1000副扑克牌少哪一张牌(去掉大小王)
问题2:100GB的网站访问日志文件,找出访问次数最多的IP地址
- 将日志进行切分(比如按时间)
- 各自统计各IP的访问次数
- 进行归约,通过IP值进行Hash映射(相同IP归到同一个reduce)
- 排序结果
分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
问题1:1000副扑克牌少哪一张牌(去掉大小王)
问题2:100GB的网站访问日志文件,找出访问次数最多的IP地址