大数据及Hadoop基础

1、Hadoop 快速安装入门

主要介绍Hadoop入门知识,包括优势、环境搭建、运行模式、源码编译等

2、分布式文件系统 HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,特点如下:它是一个高度容错性的系统,适合部署在廉价的机器上;HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用;HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS是Apache Hadoop Core项目的一部分,最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

3、Hadoop 分布式计算框架 MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,最早是由Google公司研究提出,其初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。
概念"Map(映射)“和"Reduce(归约)”,是MapReduce的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
2004年,开源项目Lucene(搜索索引程序库)和Nutch(搜索引擎)的创始人Doug Cutting发现MapReduce正是其所需要的解决大规模Web数据处理的重要技术,因而模仿Google MapReduce,基于Java设计开发了一个称为Hadoop的开源MapReduce并行计算框架和系统。自此,Hadoop成为Apache开源组织下最重要的项目,自其推出后很快得到了全球学术界和工业界的普遍关注,并得到推广和普及应用。

4、Hadoop 分布式资源管理框架 YARN

Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。

5、Hadoop企业优化及扩展案例
发布了105 篇原创文章 · 获赞 7 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_43792385/article/details/103671094