hadoop的介绍

其他 2019-01-06 23:38:47 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zhou920786312/article/details/85559142

1HADOOP简介

什么是HADOOP

HADOOP可以对海量数据进行分布式处理
HADOOP的核心组件有
1. HDFS（分布式文件系统）
2. YARN（运算资源调度系统）
3. MAPREDUCE（分布式运算编程框架）
广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈

HADOOP在大数据、云计算中的位置和关系

云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS（软件即服务）等业务模式，把强大的计算能力提供给终端用户。
现阶段，云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
而HADOOP则是云计算的PaaS层的解决方案之一，并不等同于PaaS，更不等同于云计算本身。

HADOOP生态圈以及各组成部分的简介

HDFS：分布式文件系统

MAPREDUCE：分布式运算程序开发框架

HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具

HBASE：基于HADOOP的分布式海量数据库

ZOOKEEPER：分布式协调服务基础组件

Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie：工作流调度框架

Sqoop：数据导入导出工具

Flume：日志数据采集框架

2 分布式系统概述

注：由于大数据技术领域的各类技术框架基本上都是分布式系统，因此，理解hadoop、storm、spark等技术框架，都需要具备基本的分布式系统概念

2.1 分布式软件系统(Distributed Software Systems)

该软件系统会划分成多个子系统或模块，各自运行在不同的机器上，子系统或模块之间通过网络通信进行协作，实现最终的整体功能
比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。

2.2 分布式软件系统举例：solrcloud

一个solrcloud集群通常有多台solr服务器
每一个solr服务器节点负责存储整个索引库的若干个shard（数据分片）
每一个shard又有多台服务器存放若干个副本互为主备用
索引的建立和查询会在整个集群的各个节点上并发执行
solrcloud集群作为整体对外服务，而其内部细节可对客户端透明

总结：利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统。

2.3 分布式应用系统模拟开发（一个任务划分为多个任务区域给多节点同时处理）

需求：可以实现由主节点将运算任务发往从节点，并将各从节点上的任务启动；

程序清单：

AppMaster

AppSlave/APPSlaveThread

Task

程序运行逻辑流程：

3. 离线数据分析流程介绍

京东推荐功能项目技术架构图

3.1 一般流程图

本案例的前提是处理海量数据

数据采集：定制开发采集程序，或使用开源框架FLUME
数据预处理：定制开发mapreduce程序运行于hadoop集群
数据仓库技术：基于hadoop之上的Hive
数据导出：基于hadoop的sqoop数据导入导出工具
数据可视化：定制开发web程序或使用kettle等产品
整个过程的流程调度：hadoop生态圈中的oozie工具或其他类似开源产品

hadoop的文档

http://hadoop.apache.org/docs/stable/

猜你喜欢

转载自blog.csdn.net/zhou920786312/article/details/85559142

hadoop介绍

[hadoop]介绍

hadoop的介绍

Hadoop介绍--Hadoop的家族

【Hadoop入门】Hadoop的架构介绍

hadoop之hadoop基础介绍

精通HADOOP（三） - 初识Hadoop - Hadoop介绍

Hadoop框架介绍

Hadoop 3.0 介绍

hadoop（一）之介绍

比较简洁的Hadoop介绍

Hadoop介绍及实战

Hadoop安全机制介绍

Hadoop 入门介绍

Hadoop HDFS Balancer介绍

[Hadoop]chukwa的简单介绍

Hadoop基础-Mapreduce介绍

hadoop介绍概述

Hadoop整体框架的介绍

hadoop目录介绍

Hadoop集群部署介绍

Hadoop基本介绍

Hadoop 整体介绍

【转载】Hadoop产品介绍

Hadoop API 使用介绍

学习Hadoop——MapReduce介绍

Hadoop节点介绍

Hadoop以及组件介绍

hadoop生态的大体介绍

Hadoop之Avro介绍

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)