大数据技术Hadoop介绍

  1. 大数据概述:特点,用处,不在多说

  2. 从hadoop的角度讨论大数据生态体系

    1. hadoop是什么

      1. Hadoop是由Apache基金会所开发的分布式系统基础架构.

      2. 主要解决海量数据的存储和海量数据的分析计算问题.

    2. hadoop三大发行版本

      1. Apache Hadoop

        1. 对于入门学习最好

        2. 官网地址:http://hadoop.apache.org/releases.html

          下载地址:https://archive.apache.org/dist/hadoop/common/

      2. Cloudera Hadoop

        1. 这个版本在大型互联网企业中用的较多

        2. 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html

          下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

      3. Hortonworks Hadoop

        1. 官网地址:https://hortonworks.com/products/data-center/hdp/

          下载地址:https://hortonworks.com/downloads/#data-platform

    3. Hadoop的优势

      1. 高可靠性:hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
      2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点,
      3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度.
      4. 高容错性: 能够自动将失败的任务重新分配.
    4. Hadoop组成

      1. Hadoop1.x中MapReduce同事处理业务逻辑运算和资源的调度,耦合性大

        1. common(辅助工具):支持其他模块的工具模块.

        2. Hadoop HDFS: 一个高可靠 高吞吐量的分布式文件系统.

        3. Hadoop MapReduce: 分布式的资源调度和离线并行计算框架.

      2. Hadoop2.x时代,增加了Yarn,yarn只负责资源的调度,MapReduce只负责运算.

        1. HDFS: 高可靠 高吞吐量的分布式文件系统.

        2. YARN: 作业调度域集群资源管理的框架.

        3. MapReduce: 分布式的离线并行计算框架

        4. common(辅助工具):支持其他模块的工具模块.

    5. HDFS架构概述

      1. NameNode: 存储文件的元数据,如文件名,文件目录结构文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.
      2. DataNode: 在本地文件系统存储文件块数据以及块数据的校验.
      3. Secondary NameNode: 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照,
    6. YARN架构概述

      1. ResourceManager(rm): 处理客户端请求,启动/监控ApplicationMaster,监控NodeManager,资源分配与调度.
      2. NodeManager(nm): 单个节点上的资源管理,处理来自ApplicationMaster的命令,
      3. ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错,
      4. Container:对任务运行环境的抽象,分配了cpu 内存等多维资源以及环境变量,启动命令等任务运行的相关的信息.
    7. MapReduce架构概述

      1. MapReduce将计算过程分为两个阶段:Map和Reduce

      2. Map阶段并行处理输入数据
      3. Reduce阶段对Map结果进行汇总

猜你喜欢

转载自www.cnblogs.com/tianliuyang/p/9448944.html