Hadoop基础学习笔记一

1、Hadoop有哪些优势?

a、高可靠性:默认有三个备份

b、高扩展性:扩展数以千计的节点

c、高效性:并行工作,加快处理速度

d、能自动将失败的任务重新分配

注:这样写主要是对应大数据的四个特点,可以回顾一下

数据量、速度快、价值密度、种类多样(4V)

2、Hadoop 1.x和Hadoop 2.x有什么区别?

总结如下:

     在Hadoop 1.x时代,Hadoop中的Mapduce同时处理业务逻辑和资源的调度,耦合性较大,在Hadoop 2.x时代,增加了YARN。YARNZ只负责资源的调度,Mapduce只负责运算。

3、HDFS架构概述

Name Node:存储文件元数据

Data Node:实际数据

Secondy Node Node:辅助Name Node 

4、YARN构架

Resource Manager:整个集群资源分配

a、处理客户请求

b、监控Node Manager

c、启动或监控Application Master

d、资源的分配与调度

Node Name:某一个节点的资源分配

a、管理单个节点上的资源

b、处理来自Resource Manager的命令

Application Master:某个任务资源的资源申请调度

a、负责数据的切分

b、为应用程序申请资源,并分配给内部的任务

c、任务的监控与容错

Container:是YAN中的资源抽象,它封装了某个节点上多维度资源,如内存、CPU、磁盘、网络等。

例如:安装vm虚拟机里面多个centos

5、MapReduce 架构概述

a、Map阶段并行处理输入数据

b、Reduce阶段对Map结果进行汇总

6、大数据技术生态系统体系

 

上图为大数据生态系统图,有了整体的结构了解,然后再深入学习每个部分的内容。

发布了114 篇原创文章 · 获赞 47 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/Jmayday/article/details/104400964