学习笔记-MapReduce

推荐系统：

离线层：对海量数据离线计算.MapReduce spark

近线层：利用流式处理对海量数据进行实时加工风暴

online layer：负责在线计算处理，相对简单的逻辑运算.WebPy。

一致性哈希算法：为了解决因特网中的热点HostPot问题

最基本的海量数据思想：分而治之思想：

一个地图对应一个分裂分片

MapReduce是一个处理海量数据的分布式计算框架，该框架解决了：

MapReduce不负责存储数据，数据存储在HDFS上，HDFS的特点：

MapReduce的思想是什么：分而治之的思想，该思想解决了数据可以切割计算的应用问题;

地图：分，把复杂的问题分解为若干个简单任务

减少：合

MapReduce的的计算框架的流程：

InputFormat（MR最基础的类库之一）：

Shuffle ：

包含partion，sort，spill，Meger，Combiner 性能优化大有可为的地方

Partitioner是整个Shuffle中的一个部分，该部分决定数据又哪个Reducer处理，从而分区，比如采取Hash法，有n个reducer ，数据{“are”,1} 对key “are” 去做hash 即对n取模生成m 那么生成{m, key,value},该partion就是m，决定去哪个桶
Spill 溢写，每次溢写都会生成文件，溢出的数据到磁盘前对数据进行key排序sort，以及合并combiner。把数据从内存搬到磁盘
Sort 缓冲区数据按照key排序
Combiner 数据合并，相同的key数据，vlaue值合并，减少输出传输量。相当于部分reducer功能在memoryBuffer中做了。不能乱用该功能。

MapReduce ：

JobTracker 主进程，负责接收客户作业，提供监控工作节点功能，一个MapReduce集群只有一个JobTracker
TaskTracker 工作节点，由jobtracker提供任务，并周期性向jobtracker提供工作状态，每个工作节点只有一个taskTracker，但是一个集群有多个taskTracker ，只有一个jobTracker

MapReduce 默认先进先出的队列调度模式（FIFO模式）：

MapReduce采用多进程的并发方式，优点：多进程的并发方式这种模型便于每个任务占用资源进行控制调配，进程空间是独特的，缺点：多进程这种方式很大一部分限制了那些低延迟的任务，适合用于批量操作，高吞吐离线的。

MapReduce物理配置：

MapReduce Map注意⚠️ ：

对于单个的MapReduce

地图的个数最好为集群插槽的倍数

减少的个数最好为集群槽的个数，倍数

MapReduce和HDFS同时部署在一个集群中，因为使数据本地化，就近原则

通常一个集群包含三个角色（主，从客户端）

多副本，目的是容错，数据层面做到高可用