《Hadoop权威指南》读书笔记

MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询.因此它并不适合交互式分析.但随着发展Hadoop已经超越了批处理本身.

为了加快大数据作业的处理速度,需要使用并行处理程序.如果只是单纯地用不同线程来处理不同数据,那么运行时间仍取决于处理最长文件所需要的时间.因此需要将不同数据按固定大小分割为几个块,每个块独立处理,最后再将每个块处理后得到的数据进行比较.
MapReduce分为两个处理阶段:Map和Reduce,每个阶段都以键值对作为输入和输出.

MapReduce作业(job)是客户端需要执行的一个工作单元.Hadoop将作业分成若干个任务(task)来执行,这些任务运行在集群的节点上,并通过YARN进行调度.如果一个任务失败,将在另一个不同的节点上自动重新调度运行.
Hadoop将MapReduce的输入数据划分成等长的小数据块,称为分片(input split).每个分片构建一个map任务,并由该任务来运行用户自定义的map函数从而处理分片中的每条记录.一个合理的分片大小趋向于HDFS的一个块的大小,默认是128MB.
map任务有本地数据,本地机架和跨机架任务三种,因此最佳分片的大小应该与块大小相同.map任务将其输出写入本地硬盘,因为map的输出结果只是作为中间值.
单个reduce任务的输入通常来自于所有mapper的输出.reduce任务的数量是独立指定的.map和reduce之间的数据流称为混选(shuffle),因为每个reduce任务的输入都来自于许多map任务.也有可能出现无reduce任务的情况,此时map任务直接将结果写入HDFS.
map和reduce任务之间的数据传输受集群的可用带宽限制.因此可以针对map的输出指定一个combiner,combiner的输出作为reduce的输入,可以减少数据的传输量.