大数据第二章hadoop概述

hadoop简介

hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具有大规模的数据分布存储性以及较高的安全性。

MAPRDUCE是一套计算速度很快的计算模型。

hadoop的特性

高可靠性 、高效性、高扩展性、高容错性、成本低、支持多种语言、跨平台性。

hadoop的生态系统

HDFS作为hadoop两大核心之一的分布式文件系统,它是以流的形式访问文件系统中的数据,在访问数据的过程中,具有很高的吞吐率,他常常是作为最廉价的机群使用的最好选择工具,并且在访问数据的过程中出现故障也能很好的保障文件的可用性和可靠性。

HBase他是一个具有高性能、高可靠性的分布式数据库,一般作为HDFS的底部存储,他具有强大的非结构化数据存储能力,是采用列的形式存储,具有良好的横向扩展能力。

Mapreduce是一种编程模型其核心是采用分而治之的思想,他是把数据纷呈多个块状分布在多个计算机上进行运行,最终得出结果,汇聚在一起,具有高效率。

Hive是一个数据仓库工具可以用于数据的整理、查询、和存储,他并且也具有良好的语言转化能力。

Flume是一个分布式的日志采集、聚合和传输的系统。

Sqoop主要用于Hadoop和关系数据库之间交换数据,可以改进数据的胡操作性。

Hadoop的三大主键是HDFS、MAPREDUCE、YARN。

spark是基于mapreduce之后的具有高速度的(内存)计算模型.

猜你喜欢

转载自www.cnblogs.com/8b8b/p/11564063.html