Hadoop-1-生态圈的组件大体介绍

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qichangjian/article/details/87937992

1.大数据概念:

指的是传统数据处理应用软件 不足以处理 (存储和计算)它们的 大而复杂数据集

2.大数据特点:

容量大,种类多,速度快,价值高

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息

新浪微博,3 亿用户,每天上亿条微博
朋友圈,8 亿用户,每天亿级别朋友圈

种类(Variety):数据类型的多样性,包括文本,图片,视频,音频

结构化数据:可以用二维数据库表来抽象,抽取数据规律
半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML 等,也可称非结构化
非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等

速度(Velocity):指获得数据的速度以及处理数据的速度

数据的产生呈指数式爆炸式增长
处理数据要求的延时越来越低

价值(Value):合理运用大数据,以低成本创造高价值

综合价值大,隐含价值大
单条数据记录无价值,无用数据多

3.什么是 Hadoop:

1、Hadoop 是 Apache 旗下的一套开源软件平台
2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分
布式处理
3、Hadoop 的核心组件

A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
B.HDFS(Hadoop Distributed File System 分布式文件系统)
C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
D.MapReduce(Map 和 Reduce 分布式运算编程框架)

4、广义上来说,Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
5、官网介绍:http://hadoop.apache.org/

4.Hadoop重点组件介绍:

在这里插入图片描述
在这里插入图片描述
重点组件:
HDFS:Hadoop 的分布式文件存储系统
MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型
YARN :是一个资源调度平台
Hive:基于 Hadoop 的类 SQL 数据仓库工具
HBase:基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper:分布式协调服务组件
Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具
kafak:是一种分布式的,基于发布/订阅的消息系统

5.数据的处理流程:

在这里插入图片描述
A、数据采集:定制开发采集程序,或使用开源框架 Flume 或者 LogStash
B、数据预处理:定制开发 MapReduce 程序运行于 Hadoop 集群,或者专门数据收集工具也
能进行数据预处理
C、数据仓库技术:基于 Hadoop 之上的 Hive
D、数据导出:基于 Hadoop 的 Sqoop 数据导入导出工具
E、数据可视化:定制开发 web 程序或使用 Kettle 等产品
F、数据统计分析:Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive,或者 Spark,Flink
G、整个过程的流程调度:Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qichangjian/article/details/87937992
今日推荐