大数据生态介绍

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

hadoop

HDFS 架构概述,HDFS,是一个分布式文件系统
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
(1)管理HDFS的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)映射信息;
(4)处理客户端读写请求。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
(1)存储实际的数据块;
(2)执行数据块的读/写操作。
3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
(1)辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
(2)在紧急情况下,可辅助恢复NameNode。

YARN 架构概述
YARN ,是一种资源协调者,是 Hadoop 的资源管理器。

1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大
3)ApplicationMaster(AM):单个任务运行的老大
2)NodeManager(N M):单个节点服务器资源老大
4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。
说明1:客户端可以有多个
说明2:集群上可以运行多个ApplicationMaster
说明3:每个NodeManager上可以有多个Container

map 流程解析

map 中有几个主要概念:

分区:partition,根据 key 进行分区,一般是 hash 方法

排序:sort,对 key 进行排序,排序在 hadoop 中起到核心作用

溢写:spill,把数据从内存写入磁盘

reducer 流程解析

1. 将多个map传过来的数据 进行sort ,然后合并;

扫描二维码关注公众号,回复: 15161307 查看本文章

2. reducer处理;

3. 将结果输出到 hdfs;

spark 有三大引擎,spark core、sparkSQL、sparkStreaming

spark core 的关键抽象是 SparkContext、RDD;

SparkSQL 的关键抽象是 SparkSession、DataFrame;

sparkStreaming 的关键抽象是 StreamingContext、DStream

SparkSession 是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContext;

SparkSession 其实是封装了 SQLContext 和 HiveContext

Spark类似于MapReduce的低延迟的交互式计算框架

四个核心组件

Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。

Spark Streaming:对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据

MLlib:一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX:控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API,包含控制图、创建子图、访问路径上所有顶点的操作

Spark架构的组成

Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器

Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。

Driver: 运行Application 的main()函数

Executor:执行器,是为某个Application运行在worker node上的一个进程

执行过程

用户程序创建 SparkContext 后,它会连接到集群资源管理器,集群资源管理器会为用户程序分配计算资源,并启动 Executor;

Driver 将计算程序划分为不同的执行阶段和多个 Task,之后将 Task 发送给 Executor;

Executor 负责执行 Task,并将执行状态汇报给 Driver,同时也会将当前节点资源的使用情况汇报给集群资源管理器。

Spark部署

·安装Scala

·配置文件:spark-env.sh

·部署的四种模式:Standalone、Spark On Yarn、Spark On Mesos、Spark On Cloud

应用场景

当我们的计算超过了单机尺寸,也就是单机内存不够时,可选用 spark;

或者当我们计算非常复杂,需要大量时间,也可选用 spark;

批处理:复杂计算的批处理,重点在于海量,可忍受的计算速度为几分钟到几小时

交互查询:海量历史数据的交互查询,计算速度为 几秒到几十分钟

实时数据:实时数据流的数据处理,计算速度为几百毫秒到几秒


Spark内核,task数和并行度

每一个 spark job 根据 shuffle 划分 stage,每个 stage 形成一个或者多个 taskSet,了解了每个 stage 需要运行多少个 task,有助于我们优化 spark 运行

task 数 

首先需要了解以下概念:

RDD,弹性分布式数据集,多个 partition;

split,切片,HDFS 上文件为什么要切片,如何切片

textFlie 分区,textFile 如何对一个文件分区

创建 RDD 的过程我们可以认为没有 task 的概念,比如读取 HDFS 文件;

有了RDD 后才有 task 的概念; 

重点

一个 inputSplit 对应 RDD 的一个 partition;

RDD 的一个 partition 对应一个 task,也就是说 一个 inputSplit 对应一个 task;

通常情况下 一个 block 对应一个 inputSplit;

// 以 textFile 为例,每个 inputSplit 不能大于 blockSize,也就是说 可以把 block 切开,但不能把多个 block 组合起来,如果不指定分区,那么每个切片就是 block;

HBase

➢Region

table在行的方向上分隔为多个Region。Region是HBase中分布式存储和负载均衡的最小单元,即不同的region可以分别在不同的Region Server上,但同一个Region是不会拆分到多个server上。Region按大小分隔,表中每一行只能属于一个region。随着数据不断插入表,region不断增大,当region的某个列族达到一个阈值,时就会分成两个新的region。

➢ Store

每一个region有一个或多个store组成,至少是一个store,hbase会把一起访问的数据放在一个store里面,即为每个ColumnFamily建一个store(即有几个ColumnFamily,也就有几个Store)。一个Store由一个memStore和0或多个StoreFile组成。

➢ StoreFile

保存实际数据的物理文件,StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的

➢ WAL(Hlog)

由于数据要经 MemStore 排序后才能刷写到 HFile,但把数据保存在内存中会有很高的 概率导致数据丢失,为了解决这个问题,数据会先写在一个叫做 Write-Ahead logfile 的文件 中,然后再写入 MemStore 中。所以在系统出现故障的时候,数据可以通过这个日志文件重建

➢ MemStore

写缓存,由于HFile 中的数据要求是有序的,所以数据是先存储在 MemStore 中,排好序后,等到达刷写时机才会刷写到 HFile,每次刷写都会形成一个新的 HFile

HBase 与 Hive 的对比

1.Hive

数据仓库:Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以 方便使用 HQL 去管理查询。

用于数据分析、清洗:Hive 适用于离线的数据分析和清洗,延迟较高。

基于 HDFS、MapReduce:Hive 存储的数据依旧在 DataNode 上,编写的 HQL 语句终将是转换为 MapReduce 代码执行

2.HBase

数据库:是一种面向列族存储的非关系型数据库

用于存储结构化和非结构化的数据 适用于单表非关系型数据的存储,不适合做关联查询,类似JOIN等操作

基于 HDFS:数据持久化存储的体现形式是 HFile,存放于 DataNode 中,被 ResionServer 以 region 的形 式进行管理

延迟较低,接入在线业务使用:面对大量的企业数据,HBase 可以直线单表大量数据的存储,同时提供了高效的数据访问速度

Hbase数据结构&存储结果

1 Hbase之Lsm

LSM树的定义:

1.LSM树是一个横跨内存和磁盘的,包含多颗"子树"的一个森林。

2.LSM树分为Level 0,Level 1,Level 2 ... Level n 多颗子树,其中只有Level 0在内存中,其余Level 1-n在磁盘中。

3.内存中的Level 0子树一般采用排序树(红黑树/AVL树)、跳表或者TreeMap等这类有序的数据结构,方便后续顺序写磁盘。

4.磁盘中的Level 1-n子树,本质是数据排好序后顺序写到磁盘上的文件,只是叫做树而已。

5.每一层的子树都有一个阈值大小,达到阈值后会进行合并,合并结果写入下一层。

6.只有内存中数据允许原地更新,磁盘上数据的变更只允许追加写,不做原地更新。

2 Hbase之跳表

HRegion在sotre管理上用到了跳表数据结构ConcurrentSkipListMap:

ConcurrentSkipListMap有几个ConcurrentHashMap不能比拟优点:

ConcurrentSkipListMap的key是有序的。

ConcurrentSkipListMap支持更高的并发。

ConcurrentSkipListMap的存取时间是log(N),和线程数几乎无关。也就是说在数据量一定的情况下,并发的线程越多,ConcurrentSkipListMap越能体现出他的优势。

3 Hbase之布隆过滤器

布隆过滤器的作用是,用户可以立即判断一个文件是否包含特定的行键,从而帮我们过滤掉一些不需要扫描的文件。

对于hbase而言,当我们选择采用布隆过滤器之后,HBase会在生成StoreFile(HFile)时包含一份布隆过滤器结构的数据,称其为MetaBlock;MetaBlock与DataBlock(真实的KeyValue数据)一起由LRUBlockCache维护。所以,开启bloomfilter会有一定的存储及内存cache开销。

Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时Flink支持高度容错的状态管理,防止状态在计算过程中因为系统异常而出现丢失,Flink周期性地通过分布式快照技术Checkpoints实现状态的持久化维护,使得即使在系统停机或者异常的情况下都能计算出正确的结果。

Flink的任务运行其实是采用多线程的方式,这和MapReduce多JVM进程的方式有很大的区别Flink能够极大提高CPU使用效率,在多个任务和Task之间通过TaskSlot方式共享系统资源,每个TaskManager中管理多个TaskSlot资源池进行对资源进行有效管理。

hive 是一个处理海量的结构化数据的计算引擎;

hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一张表,并且提供了类 sql 的查询功能;

hive 提供的 sql 叫 HQL,本质是把 HQL 转换成 mapreduce;

1. hive 虽然是大数据工具,但是 hive 并非分布式的,它只安装在一台机器上,当然你可以在多台机器上都安装 hive,但彼此之间没有联系;

2. 我们可以把 hive 看做 hadoop 的客户端,通过使用 hive 来使用 hadoop;

3. hive 是个计算引擎,他没有存储功能,虽然有一张表,但是我们可以认为那是一张虚拟表,表的数据存储在 hdfs,表的元数据存在 mysql 等数据库,hive 查询时通过元数据找到数据在 hdfs 中的位置,并启动 mapreduce 进行计算;

hive 的架构

Client:客户端,需要 jdbc 数据库;

Metastore:元数据,存储在 关系型数据库,如 mysql 等;

元数据存储了表的相关信息,包括表名,每张表在 hdfs 中的存储路径,表的拥有者,字段 等;

Driver:这是 hive 的核心,包括 解析器,编译器,优化器,执行器;

解析器检查 sql 语法是否正确;编译器把 sql 转换成 mr;优化器对 mr 进行优化;执行器执行 mr;

hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下;

hive 有个默认的数据库叫 default;

但是在 /user/hive/warehouse 路径下没有创建 default 文件夹,default 下的表是直接在 /user/hive/warehouse 路径下 创建文件夹

猜你喜欢

转载自blog.csdn.net/hongyucai/article/details/127225064