1、Hadoop有哪些优势?
a、高可靠性:默认有三个备份
b、高扩展性:扩展数以千计的节点
c、高效性:并行工作,加快处理速度
d、能自动将失败的任务重新分配
注:这样写主要是对应大数据的四个特点,可以回顾一下
数据量、速度快、价值密度、种类多样(4V)
2、Hadoop 1.x和Hadoop 2.x有什么区别?
总结如下:
在Hadoop 1.x时代,Hadoop中的Mapduce同时处理业务逻辑和资源的调度,耦合性较大,在Hadoop 2.x时代,增加了YARN。YARNZ只负责资源的调度,Mapduce只负责运算。
3、HDFS架构概述
Name Node:存储文件元数据
Data Node:实际数据
Secondy Node Node:辅助Name Node
4、YARN构架
Resource Manager:整个集群资源分配
a、处理客户请求
b、监控Node Manager
c、启动或监控Application Master
d、资源的分配与调度
Node Name:某一个节点的资源分配
a、管理单个节点上的资源
b、处理来自Resource Manager的命令
Application Master:某个任务资源的资源申请调度
a、负责数据的切分
b、为应用程序申请资源,并分配给内部的任务
c、任务的监控与容错
Container:是YAN中的资源抽象,它封装了某个节点上多维度资源,如内存、CPU、磁盘、网络等。
例如:安装vm虚拟机里面多个centos
5、MapReduce 架构概述
a、Map阶段并行处理输入数据
b、Reduce阶段对Map结果进行汇总
6、大数据技术生态系统体系
上图为大数据生态系统图,有了整体的结构了解,然后再深入学习每个部分的内容。