Hadoop搭建笔记(16)

本文是我学习Hadoop搭建过程中的各种笔记,内容来自于各种公开的教程,起点非常低,从Linux基础开始,直至在PC上搭建Hadoop成功,是真正的从零开始。

感谢过程中帮助我的各位认识的和不认识的老师。

29、Hadoop的简单介绍:

Apache Hadoop 官网地址:http://hadoop.apache.org 

1.Hadoop是什么?

Apache Hadoop平台是一个可靠的、可扩展的、可分布式计算的开源软件。

平台是一个框架,允许使用简单的编程模型

在计算机集群(集群:多台机子链接在一起)中对大型数据集进行分布式处理。

该平台被设计成可以从单个服务器扩展到数千台服务器,每个服务器都可以提供本地计算和存储

该平台也被设计成可检测和处理应用层的故障(即高可靠、高容错)高可用服务是基于计算机集群的,集群的每一台机子都可能失败,Hadoop本身就被设计成能够探测和处理失败 ,而不是应用硬件来支持高可用的

2.Hadoop产生背景?

数据时代,Googel

Googel:

GES:数据存储  

MAP-REDUCE:数据分析  

BIG-TABLE:非规则的数据存储

只提供学术文章,闭源→Hadoop发展

Googel发展遇到的问题:

大量网页怎么存储(gfs)? [gfs:谷歌的文件系统]

搜索算法?

Page-Rank(网页排名)计算问题?

3.Hadoop发展历史?

(谷歌闭源,海量数据处理)

Apache Lucene : 开源的高性能全文检索工具

Apache Nutch:开源的Web搜索引擎

Google三大论文: GES/ MapReduce/ BigTable

Apache Hadoop: 大规模数据处理

Doug Cutting开创的开源软件,用java书写代码

Lucene 到 nutch ,从nutch 到Hadoop

2003—2004年Google公布了部分 GES和MapReduce思想细节,以此为基础,Doug Cutting等人实现了DFS和MapReduce机制,使Nutch性能飙升

4.Hadoop的应用?

核心思想:再好一台的机子,也抵不过成千上万台机子在一起

pc<work station(工作站)<小型机<巨型机<成千上万台机子的集群

Hadoop1.0 、2.0 生态系统3.0 是α版本,用于测试阶段,不能用于生产):


Hadoop1.0MapReduce 即处理数据又管理资源

Hadoop2.0YARN全局资源的管理者以及任务的调度者

YARN:全局资源管理

HDFS:可以想象成电脑的磁盘,只不过它是基于磁盘之上的系统

MR:批量处理

PIG:数据流

大数据处理业务应用:

银行,运营商流量,收视率,播放器推荐,金融,交通摄像头,工业传感器……

Apache Hadoop版本演化:


猜你喜欢

转载自blog.csdn.net/zxqjinhu/article/details/80426332