大数据概论 + Hadoop概述

其他 2021-04-03 20:52:23 阅读次数: 0

文章目录

一、大数据概论
二、Hadoop
三、大数据技术生态体系
四、推荐系统框架图

一、大数据概论

大数据主要解决，海量数据的采集、存储和分析计算问题

大量、高速、多样、低价值密度

应用场景：

抖音：推荐你喜欢的视频
电商站内广告推荐：给用户推荐可能喜欢的商品
零售：分析用户消费习惯，为用户购买商品提供方便，从而提升商品销量，经典案例：纸尿裤+啤酒
物流仓储：京东物流，上午下单下午送达、下午下单次日上午送达
保险、金融、房产
人工智能+5G+物联网+虚拟与现实

下图为大数据部门组织结构：

在这里插入图片描述

二、Hadoop

1、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构
主要解决，海量数据的存储和海量数据的分析计算问题
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈

2、Hadoop的发展历史

Hadoop创始人Doug Cutting 为了实现与谷歌类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎
2001年年底Lucene成为Apache基金会的一个子项目
对于海量数据的场景，Lucene框架面对与谷歌同样的苦难，存储海量数据困难，检索海量速度慢
学习和模仿谷歌解决这些问题的办法：微型版Nutch
可以说谷歌是Hadoop的思想之源（谷歌在大数据方面的三篇论文）
- GFS —> HDFS
- Map_Reduce —> MR
- BigTable —> HBase
2003—2004年，谷歌公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了HDFS和MapReduce机制，使Nutch性能飙升
2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会
2006年3月份，Map-Reduce和Nutch Distributed File System（HDFS）分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临
名字来源于Doug Cutting儿子的玩具大象

3、Hadoop的三大发行版本

分别是：Apache、Cloudera、Hortonworks

Apache版本最原始，对于入门学习最好——2006
Cloudera内部集成了很多大数据框架，对应产品CDH——2008
Hortonworks文档较好，对应产品HDP——2001年。现在已经被Cloudera公司收购，推出新的品牌CDP

4、Hadoop的优势

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点，动态添加，动态删除
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度
高容错性：能够自动将失败的任务重新分配

5、Hadoop的组成

在这里插入图片描述

1）HDFS架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统

在这里插入图片描述

NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和
Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份，秘书

2）YARN架构概述

Yet Another Resource Negotiator简称YARN，另一种资源协调者，是Hadoop的资源管理器
在这里插入图片描述

3）MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

4）HDFS、YARN、MapReduce三者关系

在这里插入图片描述

三、大数据技术生态体系

在这里插入图片描述

四、推荐系统框架图

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/lesileqin/article/details/115396380

大数据概论 + Hadoop概述

Hadoop 基础 -- 大数据概论、Hadoop概述

大数据-Hadoop概论

【Hadoop技术】【大数据概论】

hadoop大数据概述

Hadoop系列001-大数据概论

大数据之--Hadoop概述

大数据 02 Hadoop 概述

Hadoop教程：大数据概述

大数据-Hadoop生态(5)-HDFS概述

大数据技术栈——Hadoop概述

大数据技术之Hadoop概述

大数据Hadoop之HDFS概述

大数据之Hadoop（一）：Hadoop概述、什么是Hadoop、Hadoop核心组件、Hadoop优势

尚硅谷大数据技术之Hadoop（入门）第1章大数据概论

从0开始学大数据（2）：大数据的概论和Hadoop安装

尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】

大数据：诞生大数据，概述、大数据软件生态，Apache Hadoop概述

【大数据工程师之路】Hadoop——MapReduce概述

【大数据工程师之路】Hadoop——概述

大数据第二章hadoop概述

大数据技术之Hadoop（MapReduce概述）一

大数据技术之Hadoop之MapReduce（1）——MapReduce概述

大数据技术之Hadoop之HDFS(1)——HDFS概述

大数据技术之Hadoop（MapReduce）概述、序列化

大数据Hadoop入门02——Linux操作系统概述

大数据课程D2——hadoop的概述

大数据技术之Hadoop：MapReduce与Yarn概述（六）

分布式计算，云计算与大数据概论（一）--分布式计算概述（2）

分布式计算，云计算与大数据概论（一）--分布式计算概述

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)