Hadoop生态系统概述

Hadoop生态系统概述

更多干货

一、概述

Hadoop 1.0与2.0

image

二、Hadoop介绍

分布式存储系统  提供了高可靠性、高扩展性和高吞吐率的数据存储服务

资源管理系统YARN(Yet Another Resource Negotiator)  负责集群资源的统一管理和调度

分布式计算框架MapReduce

1、分布式计算框架

2、具有易于编程、高容错性和高扩展性等优点

image

1、HDFS(分布式文件系统)

基本原理

1、将文件切分成等大的数据块,存储到多台机器上

2、将数据切分、容错、负载均衡等功能透明化

3、可将HDFS看成一个容量巨大、具有高容错性的磁盘

应用场景

1、海量数据的可靠性存储

2、数据归档

  • nn name node
  • dn Data node

image

2、YARN(资源管理系统)

YARN是什么

1、Hadoop 2.0新增系统

2、负责集群的资源管理和调度

3、使得多种计算框架可以运行在一个集群中

YARN的特点

1、良好的扩展性、高可用性

2、对多种类型的应用程序进行统一管理和调度

3、自带了多种多用户调度器,适合共享集群环境

image

image

3、MapReduce(分布式计算框架)

源自于Google的MapReduce论文 

  • 发表于2004年12月

  • Hadoop MapReduce是Google MapReduce克隆版

MapReduce特点

  • 良好的扩展性
  • 高容错性
  • 适合PB级以上海量数据的离线处理

image

image

image

三、Hadoop生态系统

1、1.0时代

image

2、2.0时代

image

3、Hive(基于MR的数据仓库)

image

image

image

4、Pig

image

image

5、MapReduce程序

image

image

6、Hive语句

image

7、pig 语句

image

image

8、Mahout(数据挖掘库)

Mahout实现的算法

image

image

image

image

image

9、HBase(分布式数据库)

image

image

image

image

Hbase 架构 image

10、Zookeeper(分布式协作服务)

image

Zookeeper应用


  HDFS
YARN
Storm
HBase
Flume
Dubbo(阿里巴巴)
Metaq(阿里巴巴

11、Sqoop(数据同步工具)

image

image

12、Flume(日志收集工具)

image

13、Oozie(作业流调度系统)

image

image

四、Hadoop版本衍化

image

HDP

image

CDH

image

Hadoop版本选择

image

猜你喜欢

转载自blog.csdn.net/qq_27384769/article/details/80313596