B05 - 002、Hadoop初识

0、本章学习目录大纲 - Hadoop初识

初学耗时:0.5h

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

一、Hadoop介绍
  1.1  Hadoop是什么?
  1.2  Hadoop版本。
  1.3  狭义上的Hadoop - 核心组件。
  1.4  广义上的Hadoop - 生态圈。

二、Hadoop发展简史

三、Hadoop特性优点
  3.1  扩容能力(Scalable)
  3.2  成本低(Economical)
  3.3  高效率(Efficient)
  3.4  可靠性(Rellable)

四、Hadoop国内外应用
    4.1  国外。
    4.2  国内。



ギ 舒适区ゾ || ♂ 累觉无爱 ♀





一、Hadoop介绍

  1.1 ~ Hadoop是什么?

  • Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。
  • 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。

  1.2 ~ Hadoop版本。

alt

Hadoop3.0版本暂未成熟…

  1.3 ~ 狭义上的Hadoop - 核心组件。

    1.3.1 .  HDFS - 分布式文件系统。
  • 解决海量数据存储。
    1.3.2 .  YARN - 作业调度和集群资源管理的框架。
  • 解决资源任务调度。
    1.3.3 .  MAPREDUCE - 分布式运算编程框架。
  • 解决海量数据计算。

  1.4 ~ 广义上的Hadoop - 生态圈。

alt

当下的 Hadoop 已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache 主管的项目,这些项目对 HADOOP 是很好的补充或者更高层的抽象。

比如:

    1.4.1 .  HDFS - 分布式文件系统。
  • 解决海量数据存储。
    1.4.2 .  MAPREDUCE - 分布式运算程序开发框架。
  • 解决海量数据计算。
    1.4.3 .  YARN - 作业调度和集群资源管理的框架。
  • 解决资源任务调度。
    1.4.4 .  HIVE - 基于 HADOOP 的分布式数据仓库。
  • 提供基于 SQL 的查询数据操作。
    1.4.5 .  HBASE - 基于 HADOOP 的分布式海量数据库。
    1.4.6 .  ZOOKEEPER - 分布式协调服务基础组件。
    1.4.7 .  Mahout - 基于 mapreduce/spark/flink 等分布式运算框架的机器学习算法库。
    1.4.8 .  Oozie - 工作流调度框架。
    1.4.9 .  Sqoop:数据导入导出工具。
  • 比如用于 mysql 和 HDFS 之间。
    1.4.10 .  Flume - 日志数据采集框架。
    1.4.11 .  Impala - 基于 Hadoop 的实时分析。
    ......


确定发展方向,坚持业务累积。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


二、Hadoop发展简史

  • Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。
  • 最早起源于 Nutch,它是 Lucene 的子项目。
  • Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
  • 2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。
  • 论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
  • 2004 年 Google 发表论文向全世界介绍了谷歌版的 MapReduce 系统。
  • 同时期,Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE,并从Nutch 中剥离成为独立项目 HADOOP,到 2008 年 1 月,HADOOP 成为 Apache 顶级项目,迎来了它的快速发展期。
  • 2006 年 Google 发表了论文是关于 BigTable 的,这促使了后来的 Hbase 的发展。
  • 因此,Hadoop 及其生态圈的发展离不开 Google 的贡献。


确定发展方向,坚持业务累积。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




三、Hadoop特性优点

  3.1 ~ 扩容能力(Scalable)

  • Hadoop 是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

  3.2 ~ 成本低(Economical)

  • Hadoop 通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

  3.3 ~ 高效率(Efficient)

  • 通过并发数据,Hadoop 可以在节点之间动态并行的移动数据,使得速度非常快。

  3.4 ~ 可靠性(Rellable)

  • 能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。
  • 所以 Hadoop 的按位存储和处理数据的能力值得人们信赖。


确定发展方向,坚持业务累积。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




四、Hadoop国内外应用

不管是国内还是国外,Hadoop 最受青睐的行业是互联网领域,可以说互联网公司是 hadoop 的主要使用力量。

  4.1 ~ 国外。

  • Yahoo 的 Hadoop 应用在支持广告系统、用户行为分析、支持 Web 搜索等。
  • Facebook 主要使用 Hadoop 存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。

  4.2 ~ 国内。

  • BAT 领头的互联网公司是当仁不让的 Hadoop 使用者、维护者。
  • 比如 Ali 云梯(14 年国内最大 Hadoop 集群)、百度的日志分析平台、推荐引擎系统等。

alt

  • 国内其他非互联网领域也有不少 hadoop 的应用,
  • 比如:
  • 金融行业: 个人征信分析
  • 证券行业: 投资模型分析
  • 交通行业: 车辆、路况监控分析
  • 电信行业: 用户上网行为分析
  • 总之:hadoop 并不会跟某种具体的行业或者某个具体的业务挂钩,它只是一种用来做海量数据分析处理的工具。


确定发展方向,坚持业务累积。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

^ 至此,Hadoop初识完成。


- - - - - - - - - - - - - - - - - - - - - - - - - - - -


※ 世间诱惑何其多,坚定始终不动摇。

小数值1.5625的二进制表示是?


A、101.1001
B、0.001
C、101.111
D、1.1001

D
alt



确定发展方向,坚持业务累积。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!



确定发展方向,坚持业务累积。


猜你喜欢

转载自blog.csdn.net/weixin_42464054/article/details/91529138