10小时入门大数据（二）------初识Hadoop

一、Hadoop介绍
开源、分布式存储+分布式计算平台

二、Hadoop能做什么

三、核心组件之分布式文件系统HDFS
特点：扩展性、容错性、海量数据存储
将文件分成指定大小的数据块并以多副本的存储在多个机器上
数据切分、多副本、容错等操作对用户是透明的

四、Hadoop框架包含的模块

Hadoop Common：通用的模块，是包含着其他Hadoop模块的一个通用模块
Hadoop Distributed File System (HDFS)：分布式文件系统，提供一个对应用程序数据的高通量访问的分布式文件系统，简称HDFS
Hadoop YARN：用于作业调度与集群资源管理的框架
Hadoop MapReduce：基于YARN的大数据量并行处理系统，也就是实现分布式计算的框架

五、Hadoop核心组件之HDFS
HDFS特点：

六、Hadoop核心组件之资源调度系统YARN
YARN：Yet Another Resource Negotiator
负责整个集群资源的管理和调度
特点：扩展性、容错性、多框架资源统一调度
这里写图片描述

七、、Hadoop核心组件之分布式计算框架MapReduce
MapReduce特点：
扩展性、容错性、海量数据离线处理
这里写图片描述
八、Hadoop发展史
Hadoop十年解读与发展预测

九、Hadoop优势
1）高可靠性

2）展性：存储、计算资源不够时，可以横向的线性扩展机器

3）其他

十、Hadoop生态圈
1）狭义的Hadoop与广义的Hadoop：

扫描二维码关注公众号，回复： 3559492 查看本文章

狭义的Hadoop：是一个适合大数据分布式存储（HDFS）、分布式计算（MapReduce）和资源调度（YARN）的平台，也就是Hadoop框架
广义的Hadoop：指的是Hadoop生态系统，Hadoop生态系统是一个很庞大的概念，Hadoop框架是其中最重要最基础的一个部分。生态系统中的每一子系统只解决某一个特定的问题域（甚至可能很窄），不搞统一型的一个全能系统，而是小而精的多个小系统。

2）Hadoop生态系统的特点：

3）Hadoop常用发行版及选型

注：选择版本的时候尽量保持一致，例如hive选择了cdh5.7.0的话，那么其他框架也要选择cdh5.7.0，不然有可能会发生jar包的冲突。

在这里插入图片描述