Hadoop生态圈以及各组成部分的简介
重点组件:
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
HBASE:基于HADOOP的分布式海量数据库
ZOOKEEPER:分布式协调服务基础组件
Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie:工作流调度框架
Sqoop:数据导入导出工具
Flume:日志数据采集框架
Hadoop概述
Hadoop是什么?
简单的讲一句话是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台
Hadoop的核心组件?
HDFS(Hadoop Distributed File System):分布式文件系统
特点:存储海量的数据&扩展性&容错性
YARN(Yet another Resource Negotiator):资源调度系统,负责整个集群资源的管理和调度。
特点:扩展性&容错性&多框架资源统一调度
MapReduce:分布式计算框架,实现任务的分解和调度
特点:扩展性&容错性&海量数据的离线处理
…