hadoop介绍概述

 
 一、大数据： 

  大数据包括巨大规模（ 
 Volume）、超高速度（Velocity）、类型可扩展（Variety）的数据，即3V，大数据包括三种类型的数据： 

  1）结构化数据：关系型数据 

  2）半结构化数据：XML数据 

  3）非结构化数据：Word文档、PDF文档、文本、媒体日志 

 
 二、hadoop： 

  hadoop是大数据的解决方案，是Apache下一个开源子项目，用Java实现的，是一种分布式系统基础架构。 

 
 hadoop的核心： 

  1）海量数据存储(HDFS) 

  2）海量数据分析（MapReduce） 

  3）资源管理调度（YARN） 

 
 hadoop特点： 

  1）扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。 

  2）成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 

  3）高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。 

  4）可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。 

 
 三、hadoop生态： 

   1、HDFS（分布式文件系统） 
 
   特点：良好的扩展性，高容错性，适合PB级以上数据存储 
 
   应用场景：海量数据可靠存储、数据归档 
 
   2、Yarn（资源管理系统） 
 
   Yarn是Hadoop2.0新增的系统，负责集群的资源管理和调度，使得多种计算框架可以运行在一个集群中。 
 
   3、MapReduce（分布式计算框架） 
 
   4、Hive（基于MR的数据仓库） 
 
   Hive定义了一种类似SQL查询语言的HiveQL查询语言，除了不支持更新、索引和实物，几乎SQL的其他特征都能支持。 
 
   应用场景：日志分析、对维度数据分析、海量结构化数据离线分析 
 
   5、Pig（数据仓库） 
 
   Pig是构建在Hadoop之上的数据仓库，定义了一种类似于SQL的数据流语言–Pig Latin,Pig Latin可以完成排序、过滤、求和、关联等操作，可以支持自定义函数。 
 
   6、Mahout（数据挖掘库） 
 
   Mahout是基于Hadoop的 
  机器学习和数据挖掘的分布式计算框架。它实现了三大算法：推荐、聚类、分类。 
 
   7、HBase（分布式数据库） 
 
   特点：高可靠性、高性能、面列项、良好的扩展性 
 
   8、Zookeeper（分布式协作服务） 
 
   Zookeeper解决分布式环境下数据管理问题：统一命名、状态同步、集群管理、配置同步 
 
   9、Sqoop（数据同步工具） 
 
   Sqoop是连接Hadoop与传统 
  数据库之间的桥梁，它支持多种数据库，包括MySQL、DB2等；插拔式，用户可以根据需要支持新的数据库。 
 
   10、Flume（日志收集工具） 
 
   特点：分布式、高可靠性、高容错性、易于定制与扩展 
 
   11、Oozie（作业流调度系统） 
 
   四、hadoop版本介绍： 
  
   Hadoop 1.0：第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。 
  
   Hadoop 2.0：第二代Hadoop，为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。提出了全新的资源管理框架YARN(Yet Another Resource Negotiator)，它将JobTracker中的资源管理和作业控制功能分开，分别由组件ResourceManager和NodeManager实现，其中，ResourceManager负责所有应用程序的资源分配，而NodeManager仅负责管理一个应用程序。 
  
    参考： 
   https://blog.csdn.net/weixin_41279060/article/details/79074424

猜你喜欢