大数据技术Hadoop介绍 - 代码天地

大数据技术Hadoop介绍

其他 2018-08-09 15:06:45 阅读次数: 0

大数据概述:特点,用处,不在多说
从hadoop的角度讨论大数据生态体系

hadoop是什么

Hadoop是由Apache基金会所开发的分布式系统基础架构.
主要解决海量数据的存储和海量数据的分析计算问题.

hadoop三大发行版本

Apache Hadoop

对于入门学习最好
官网地址：http://hadoop.apache.org/releases.html

下载地址：https://archive.apache.org/dist/hadoop/common/

Cloudera Hadoop

这个版本在大型互联网企业中用的较多
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

Hortonworks Hadoop

官网地址：https://hortonworks.com/products/data-center/hdp/

下载地址：https://hortonworks.com/downloads/#data-platform

Hadoop的优势

高可靠性:hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点,
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度.
高容错性: 能够自动将失败的任务重新分配.

Hadoop组成

Hadoop1.x中MapReduce同事处理业务逻辑运算和资源的调度,耦合性大

common(辅助工具):支持其他模块的工具模块.
Hadoop HDFS: 一个高可靠高吞吐量的分布式文件系统.
Hadoop MapReduce: 分布式的资源调度和离线并行计算框架.

Hadoop2.x时代,增加了Yarn,yarn只负责资源的调度,MapReduce只负责运算.

HDFS: 高可靠高吞吐量的分布式文件系统.
YARN: 作业调度域集群资源管理的框架.
MapReduce: 分布式的离线并行计算框架
common(辅助工具):支持其他模块的工具模块.

HDFS架构概述

NameNode: 存储文件的元数据,如文件名,文件目录结构文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.
DataNode: 在本地文件系统存储文件块数据以及块数据的校验.
Secondary NameNode: 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照,

YARN架构概述

ResourceManager(rm): 处理客户端请求,启动/监控ApplicationMaster,监控NodeManager,资源分配与调度.
NodeManager(nm): 单个节点上的资源管理,处理来自ApplicationMaster的命令,
ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错,
Container:对任务运行环境的抽象,分配了cpu 内存等多维资源以及环境变量,启动命令等任务运行的相关的信息.

MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce
Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

猜你喜欢

转载自www.cnblogs.com/tianliuyang/p/9448944.html

大数据技术Hadoop介绍

大数据技术Hadoop的介绍

大数据hadoop领域技术总体介绍（各个组件的作用）

大数据Hadoop介绍（一）

大数据：Hadoop族群介绍

Hadoop大数据开发技术

【Hadoop技术】【大数据概论】

大数据-Hadoop生态(3)-Hadoop介绍

大数据技术介绍（一）

各种大数据技术介绍

大数据技术hadoop入门级生态圈介绍

Hadoop与Spark等大数据框架介绍

大数据框架hadoop服务角色介绍

大数据 Hadoop介绍、配置与使用

大数据框架Hadoop主要模块介绍

大数据hadoop之YARN原理介绍

大数据篇 Hadoop入门介绍

大数据篇_Hadoop入门介绍

大数据框架Hadoop族群介绍

hadoop、spark各大数据组件介绍

大数据和Hadoop平台介绍

大数据Hadoop生态圈介绍

大数据技术学习笔记之Hadoop框架基础1-Hadoop介绍及伪分布式部署

hadoop大数据基础框架技术详解

后Hadoop时代的大数据技术

大数据技术分享：Hadoop的相关工具

大数据入门必学技术之Hadoop

大数据技术之Hadoop_MapReduce

大数据技术之Hadoop（MapReduce）

大数据技术之Hadoop（HDFS）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)