Mapreduce 计算框架 功能原理

版权声明:本文为博主原创文章,大家可以转载分享学习 https://blog.csdn.net/qq_31469369/article/details/84559801

mapreduce 计算框架 原理分析

在这里插入图片描述

1. mapreduce是一个海量数据的计算框架

    **这个框架解决了以下问题:**
    基于一个多线程的模型  区别spark多进程
      
	 - 数据分布存储
	 - 作业调度
	 - 容错
	 - 机器间通信

  map: 把复杂的问题分解成简单的问题
 reduce:

2.mapreduce物理配置

合适的slot个数
-单记map reduce个数
-mapreduce.tasktracker.map,maximum(默认2)
-mapreduce.tasktracker.tasks.reduce.maxmum(默认2)
-内存限制
-cpu核数-1(一个进程tasktracker )
-多机集群分离
磁盘状况
-合适的单机多磁盘
-mapred.local.dir和dfs.data.dir

注意点:

map个数为split的份数
压缩文件不可切分
非压缩文件可以切分
dfs.block.size决定block的大小 hadoop配置文件中配置

猜你喜欢

转载自blog.csdn.net/qq_31469369/article/details/84559801