Hadoop-1-生态圈的组件大体介绍

1.大数据概念：

指的是传统数据处理应用软件 不足以处理（存储和计算）它们的 大而复杂的数据集

2.大数据特点：

容量大，种类多，速度快，价值高

容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息

新浪微博，3 亿用户，每天上亿条微博
朋友圈，8 亿用户，每天亿级别朋友圈

种类（Variety）：数据类型的多样性，包括文本，图片，视频，音频

结构化数据：可以用二维数据库表来抽象，抽取数据规律
半结构化数据：介于结构化和非结构化之间，主要指 XML，HTML 等，也可称非结构化
非结构化数据：不可用二维表抽象，比如图片，图像，音频，视频等

速度（Velocity）：指获得数据的速度以及处理数据的速度

数据的产生呈指数式爆炸式增长
处理数据要求的延时越来越低

价值（Value）：合理运用大数据，以低成本创造高价值

综合价值大，隐含价值大
单条数据记录无价值，无用数据多

3.什么是 Hadoop：

1、Hadoop 是 Apache 旗下的一套开源软件平台
2、Hadoop 提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分
布式处理
3、Hadoop 的核心组件有

A．Common（基础功能组件）（工具包，RPC 框架）JNDI 和 RPC
B．HDFS（Hadoop Distributed File System 分布式文件系统）
C．YARN（Yet Another Resources Negotiator 运算资源调度系统）
D．MapReduce（Map 和 Reduce 分布式运算编程框架）

4、广义上来说，Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
5、官网介绍：http://hadoop.apache.org/

4.Hadoop重点组件介绍：

在这里插入图片描述

重点组件：
HDFS：Hadoop 的分布式文件存储系统
MapReduce：Hadoop 的分布式程序运算框架，也可以叫做一种编程模型
YARN :是一个资源调度平台
Hive：基于 Hadoop 的类 SQL 数据仓库工具
HBase：基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper：分布式协调服务组件
Mahout：基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Oozie/Azkaban：工作流调度引擎
Sqoop：数据迁入迁出工具
Flume：日志采集工具
kafak:是一种分布式的，基于发布/订阅的消息系统

5.数据的处理流程：

在这里插入图片描述
A、数据采集：定制开发采集程序，或使用开源框架 Flume 或者 LogStash
B、数据预处理：定制开发 MapReduce 程序运行于 Hadoop 集群，或者专门数据收集工具也
能进行数据预处理
C、数据仓库技术：基于 Hadoop 之上的 Hive
D、数据导出：基于 Hadoop 的 Sqoop 数据导入导出工具
E、数据可视化：定制开发 web 程序或使用 Kettle 等产品
F、数据统计分析：Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive，或者 Spark，Flink
G、整个过程的流程调度：Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品

在这里插入图片描述