Hadoop&HDFS&YARN&MR原理

Hadoop生态圈以及各组成部分的简介

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

Hadoop概述

Hadoop是什么?

简单的讲一句话是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台

Hadoop的核心组件?

HDFS(Hadoop Distributed File System):分布式文件系统

特点:存储海量的数据&扩展性&容错性

YARN(Yet another Resource Negotiator):资源调度系统,负责整个集群资源的管理和调度。

特点:扩展性&容错性&多框架资源统一调度

MapReduce:分布式计算框架,实现任务的分解和调度

特点:扩展性&容错性&海量数据的离线处理

猜你喜欢

转载自blog.csdn.net/xiaoxie920226/article/details/86597217
今日推荐