Hadoop生态系统概述
更多干货
- 分布式实战(干货)
- spring cloud 实战(干货)
- mybatis 实战(干货)
- spring boot 实战(干货)
- React 入门实战(干货)
- 构建中小型互联网企业架构(干货)
- python 学习持续更新
- ElasticSearch 笔记
- kafka storm 实战 (干货)
一、概述
Hadoop 1.0与2.0
二、Hadoop介绍
分布式存储系统 提供了高可靠性、高扩展性和高吞吐率的数据存储服务
资源管理系统YARN(Yet Another Resource Negotiator) 负责集群资源的统一管理和调度
分布式计算框架MapReduce
1、分布式计算框架
2、具有易于编程、高容错性和高扩展性等优点
1、HDFS(分布式文件系统)
基本原理
1、将文件切分成等大的数据块,存储到多台机器上
2、将数据切分、容错、负载均衡等功能透明化
3、可将HDFS看成一个容量巨大、具有高容错性的磁盘
应用场景
1、海量数据的可靠性存储
2、数据归档
- nn name node
- dn Data node
2、YARN(资源管理系统)
YARN是什么
1、Hadoop 2.0新增系统
2、负责集群的资源管理和调度
3、使得多种计算框架可以运行在一个集群中
YARN的特点
1、良好的扩展性、高可用性
2、对多种类型的应用程序进行统一管理和调度
3、自带了多种多用户调度器,适合共享集群环境
3、MapReduce(分布式计算框架)
源自于Google的MapReduce论文
发表于2004年12月
Hadoop MapReduce是Google MapReduce克隆版
MapReduce特点
- 良好的扩展性
- 高容错性
- 适合PB级以上海量数据的离线处理
三、Hadoop生态系统
1、1.0时代
2、2.0时代
3、Hive(基于MR的数据仓库)
4、Pig
5、MapReduce程序
6、Hive语句
7、pig 语句
8、Mahout(数据挖掘库)
Mahout实现的算法
9、HBase(分布式数据库)
10、Zookeeper(分布式协作服务)
Zookeeper应用
HDFS
YARN
Storm
HBase
Flume
Dubbo(阿里巴巴)
Metaq(阿里巴巴
11、Sqoop(数据同步工具)
12、Flume(日志收集工具)
13、Oozie(作业流调度系统)
四、Hadoop版本衍化
HDP
CDH
Hadoop版本选择