一、6V特征
- 数据体量大。中小型企业的数据量基本上在TB级别左右,大型企业的数据量是在PB左右
- 数据的种类样式和来源多。样式:文本、图片、视频、音频、flash等。种类:结构化数据、半结构化数据、非结构化数据。来源:日志、爬虫、网页埋点、数据库、其他文件系统、手动录入等
- 数据的增长速度越来越快。随着网络的发展,数据的产生速度和传播速度越来越快
- 数据的价值密度越来越低。指的是需要的数据在总数据样本量中占的比例越来越低。但这并不意味着获取到的数据变少,实际上是在变多的
- 数据的质量/真实性。随着网络的发展,获取到信息的质量参差不齐
- 数据的连通性。随着大数据的发展,需要考虑数据之间或者模块之间的关联性
- 数据的动态性、可视化、合法性
二、Hadoop简介
2.1、概述
- Hadoop是Yahoo!开发后来贡献给了Apache的一套开源的、可靠的、可伸缩的、分布式系统
- Hadoop之父:Doug Cutting(道格.卡丁)
- Hadoop是大数据生态系统中的生态框架 - Hadoop是大数据技术中的基石框架
- Hadoop提供了简单的计算模型,能够分布式处理集群中的大量数据
- Hadoop能够从1台服务器扩展到上千台服务器,并且每一台服务器都可以进行计算和存储
- Hadoop提供了探测和处理异常的机制
- Hadoop是由Apache开源基金会维护,所以Hadoop在发展过程中整合开发者的意见,导致版本非常混乱
- Hadoop的发行版
a. Apache版:Hadoop原生版本,部署过程非常麻烦,但是提供了很多细节,适合于初学者
b. CDH版:由Cloudera公司发行的商用版,能很好的解决组件之间的兼容性,并且提供了可视化平台便于对Hadoop进行操作和维护
c. HDP版:由Hortonworks公司发行的商用版,更注重于Hadoop的计算性能的优化
2.2、版本
- Hadoop1.0:包含Common,HDFS和MapReduce模块。Hadoop1.0和Hadoop2.0不兼容
- Hadoop2.0:包含Common,HDFS,MapReduce和YARN模块。从Hadoop2.7开始,包含Ozone模块。Hadoop2.9包含Submarine,但是Hadoop2.10不包含Submarine模块。Hadoop2.0部分版本和Hadoop3.0的部分版本兼容
- Hadoop3.0:包含Common,HDFS,MapReduce,YARN以及Ozone模块。Hadoop3.0和Hadoop3.1.0版本包含Submarine,但是从Hadoop3.1.3开始,不好含Submarine模块
2.3、模块
- Hadoop Common:公共模块
- Hadoop Distributed File System(HDFS):分布式文件存储系统
- Hadoop YARN:任务调度和资源管理
- Hadoop MapReduce:基于YARN的分布式计算系统
- Hadoop Ozone:对象存储
2.4、安装模式
- 单机模式:在一个节点上安装Hadoop,只能启动MapReduce模块
- 伪分布式:在一个节点上安装Hadoop,利用多个进程来模拟Hadoop的集群环境,能够启动Hadoop的大部分功能
- 完全分布式:在集群中安装Hadoop,能够启动Hadoop的所有功能
• 由 ChiKong_Tam 写于 2021 年 1 月 7 日