大数据生态介绍

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2）主要解决，海量数据的存储和海量数据的分析计算问题。
3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

hadoop

HDFS 架构概述，HDFS，是一个分布式文件系统
1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
（1）管理HDFS的名称空间；
（2）配置副本策略；
（3）管理数据块（Block）映射信息；
（4）处理客户端读写请求。
2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
（1）存储实际的数据块；
（2）执行数据块的读/写操作。
3）Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。
（1）辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ；
（2）在紧急情况下，可辅助恢复NameNode。

YARN 架构概述
YARN ，是一种资源协调者，是 Hadoop 的资源管理器。
1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大
3）ApplicationMaster（AM）：单个任务运行的老大
2）NodeManager（N M）：单个节点服务器资源老大
4）Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。
说明1：客户端可以有多个
说明2：集群上可以运行多个ApplicationMaster
说明3：每个NodeManager上可以有多个Container

map 流程解析

map 中有几个主要概念：

分区：partition，根据 key 进行分区，一般是 hash 方法

排序：sort，对 key 进行排序，排序在 hadoop 中起到核心作用

溢写：spill，把数据从内存写入磁盘

reducer 流程解析

1. 将多个map传过来的数据进行sort ，然后合并；

扫描二维码关注公众号，回复： 15161307 查看本文章

2. reducer处理；

3. 将结果输出到 hdfs；

spark 有三大引擎，spark core、sparkSQL、sparkStreaming，

spark core 的关键抽象是 SparkContext、RDD；

SparkSQL 的关键抽象是 SparkSession、DataFrame；

sparkStreaming 的关键抽象是 StreamingContext、DStream

SparkSession 是 spark2.0 引入的概念，主要用在 sparkSQL 中，当然也可以用在其他场合，他可以代替 SparkContext；

SparkSession 其实是封装了 SQLContext 和 HiveContext

Spark类似于MapReduce的低延迟的交互式计算框架

四个核心组件

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。

Spark Streaming：对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据

MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作

Spark架构的组成

Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器

Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。

Driver：运行Application 的main()函数

Executor：执行器，是为某个Application运行在worker node上的一个进程

执行过程

用户程序创建 SparkContext 后，它会连接到集群资源管理器，集群资源管理器会为用户程序分配计算资源，并启动 Executor；

Driver 将计算程序划分为不同的执行阶段和多个 Task，之后将 Task 发送给 Executor；

Executor 负责执行 Task，并将执行状态汇报给 Driver，同时也会将当前节点资源的使用情况汇报给集群资源管理器。

Spark部署

·安装Scala

·配置文件：spark-env.sh

·部署的四种模式:Standalone、Spark On Yarn、Spark On Mesos、Spark On Cloud

应用场景

当我们的计算超过了单机尺寸，也就是单机内存不够时，可选用 spark；

或者当我们计算非常复杂，需要大量时间，也可选用 spark；

批处理：复杂计算的批处理，重点在于海量，可忍受的计算速度为几分钟到几小时

交互查询：海量历史数据的交互查询，计算速度为几秒到几十分钟

实时数据：实时数据流的数据处理，计算速度为几百毫秒到几秒

Spark内核，task数和并行度

每一个 spark job 根据 shuffle 划分 stage，每个 stage 形成一个或者多个 taskSet，了解了每个 stage 需要运行多少个 task，有助于我们优化 spark 运行

task 数

首先需要了解以下概念：

RDD，弹性分布式数据集，多个 partition；

split，切片，HDFS 上文件为什么要切片，如何切片

textFlie 分区，textFile 如何对一个文件分区

创建 RDD 的过程我们可以认为没有 task 的概念，比如读取 HDFS 文件；

有了RDD 后才有 task 的概念；

重点

一个 inputSplit 对应 RDD 的一个 partition；

RDD 的一个 partition 对应一个 task，也就是说一个 inputSplit 对应一个 task；

通常情况下一个 block 对应一个 inputSplit；

// 以 textFile 为例，每个 inputSplit 不能大于 blockSize，也就是说可以把 block 切开，但不能把多个 block 组合起来，如果不指定分区，那么每个切片就是 block；

HBase

➢Region

table在行的方向上分隔为多个Region。Region是HBase中分布式存储和负载均衡的最小单元，即不同的region可以分别在不同的Region Server上，但同一个Region是不会拆分到多个server上。Region按大小分隔，表中每一行只能属于一个region。随着数据不断插入表，region不断增大，当region的某个列族达到一个阈值，时就会分成两个新的region。

➢ Store

每一个region有一个或多个store组成，至少是一个store，hbase会把一起访问的数据放在一个store里面，即为每个ColumnFamily建一个store（即有几个ColumnFamily，也就有几个Store）。一个Store由一个memStore和0或多个StoreFile组成。

➢ StoreFile

保存实际数据的物理文件，StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile)，数据在每个 StoreFile 中都是有序的

➢ WAL(Hlog)

由于数据要经 MemStore 排序后才能刷写到 HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做 Write-Ahead logfile 的文件中，然后再写入 MemStore 中。所以在系统出现故障的时候，数据可以通过这个日志文件重建

➢ MemStore

写缓存，由于HFile 中的数据要求是有序的，所以数据是先存储在 MemStore 中，排好序后，等到达刷写时机才会刷写到 HFile，每次刷写都会形成一个新的 HFile

HBase 与 Hive 的对比

1.Hive

数据仓库:Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系，以方便使用 HQL 去管理查询。

用于数据分析、清洗:Hive 适用于离线的数据分析和清洗，延迟较高。

基于 HDFS、MapReduce:Hive 存储的数据依旧在 DataNode 上，编写的 HQL 语句终将是转换为 MapReduce 代码执行

2.HBase

数据库:是一种面向列族存储的非关系型数据库

用于存储结构化和非结构化的数据适用于单表非关系型数据的存储，不适合做关联查询，类似JOIN等操作

基于 HDFS:数据持久化存储的体现形式是 HFile，存放于 DataNode 中，被 ResionServer 以 region 的形式进行管理

延迟较低，接入在线业务使用:面对大量的企业数据，HBase 可以直线单表大量数据的存储，同时提供了高效的数据访问速度

Hbase数据结构&存储结果

1 Hbase之Lsm

LSM树的定义：

1.LSM树是一个横跨内存和磁盘的，包含多颗"子树"的一个森林。

2.LSM树分为Level 0，Level 1，Level 2 ... Level n 多颗子树，其中只有Level 0在内存中，其余Level 1-n在磁盘中。

3.内存中的Level 0子树一般采用排序树（红黑树/AVL树）、跳表或者TreeMap等这类有序的数据结构，方便后续顺序写磁盘。

4.磁盘中的Level 1-n子树，本质是数据排好序后顺序写到磁盘上的文件，只是叫做树而已。

5.每一层的子树都有一个阈值大小，达到阈值后会进行合并，合并结果写入下一层。

6.只有内存中数据允许原地更新，磁盘上数据的变更只允许追加写，不做原地更新。

2 Hbase之跳表

HRegion在sotre管理上用到了跳表数据结构ConcurrentSkipListMap:

ConcurrentSkipListMap有几个ConcurrentHashMap不能比拟优点：

ConcurrentSkipListMap的key是有序的。

ConcurrentSkipListMap支持更高的并发。

ConcurrentSkipListMap的存取时间是log（N），和线程数几乎无关。也就是说在数据量一定的情况下，并发的线程越多，ConcurrentSkipListMap越能体现出他的优势。

3 Hbase之布隆过滤器

布隆过滤器的作用是，用户可以立即判断一个文件是否包含特定的行键，从而帮我们过滤掉一些不需要扫描的文件。

对于hbase而言，当我们选择采用布隆过滤器之后，HBase会在生成StoreFile（HFile）时包含一份布隆过滤器结构的数据，称其为MetaBlock；MetaBlock与DataBlock（真实的KeyValue数据）一起由LRUBlockCache维护。所以，开启bloomfilter会有一定的存储及内存cache开销。

Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时Flink支持高度容错的状态管理，防止状态在计算过程中因为系统异常而出现丢失，Flink周期性地通过分布式快照技术Checkpoints实现状态的持久化维护，使得即使在系统停机或者异常的情况下都能计算出正确的结果。

Flink的任务运行其实是采用多线程的方式，这和MapReduce多JVM进程的方式有很大的区别Flink能够极大提高CPU使用效率，在多个任务和Task之间通过TaskSlot方式共享系统资源，每个TaskManager中管理多个TaskSlot资源池进行对资源进行有效管理。

hive 是一个处理海量的结构化数据的计算引擎；

hive 是基于 hadoop 的一个数据仓库工具，他将结构化的数据数据文件映射为一张表，并且提供了类 sql 的查询功能；

hive 提供的 sql 叫 HQL，本质是把 HQL 转换成 mapreduce；

1. hive 虽然是大数据工具，但是 hive 并非分布式的，它只安装在一台机器上，当然你可以在多台机器上都安装 hive，但彼此之间没有联系；

2. 我们可以把 hive 看做 hadoop 的客户端，通过使用 hive 来使用 hadoop；

3. hive 是个计算引擎，他没有存储功能，虽然有一张表，但是我们可以认为那是一张虚拟表，表的数据存储在 hdfs，表的元数据存在 mysql 等数据库，hive 查询时通过元数据找到数据在 hdfs 中的位置，并启动 mapreduce 进行计算；

hive 的架构

Client：客户端，需要 jdbc 数据库；

Metastore：元数据，存储在关系型数据库，如 mysql 等；

元数据存储了表的相关信息，包括表名，每张表在 hdfs 中的存储路径，表的拥有者，字段等；

Driver：这是 hive 的核心，包括解析器，编译器，优化器，执行器；

解析器检查 sql 语法是否正确；编译器把 sql 转换成 mr；优化器对 mr 进行优化；执行器执行 mr；

hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下；

hive 有个默认的数据库叫 default；

但是在 /user/hive/warehouse 路径下没有创建 default 文件夹，default 下的表是直接在 /user/hive/warehouse 路径下创建文件夹

猜你喜欢