Framework of a major review of data the second largest enterprise application data
Recalling the framework of a large data
Hadoop
job diagram or submit YARN YARN framework or mechanism or job submission process
0, job submission diagram
1, YARN framework
2, YARN working mechanism
3, job submission process to resolve the source graphic
MapReduce process of introduction of Shuffle
Shuffle 的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。
MapReduce 中的 Shuffle 更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。
为什么 MapReduce 计算模型需要 Shuffle 过程?我们都知道 MapReduce 计算模型一般包括两个重要的阶段:Map 是映射,负责数据的过滤分发;Reduce 是规约,负责数据的计算归并。
Reduce 的数据来源于 Map,Map 的输出即是 Reduce 的输入,Reduce 需要通过 Shuffle来 获取数据。
从 Map 输出到 Reduce 输入的整个过程可以广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端,在 Map 端包括 Spill 过程,在 Reduce 端包括 copy 和 sort 过程,如图所示:
Ring buffer sketch
Zookeeper
use zookeeper monitor server node dynamically upper and lower case
Zookeeper maintenance structure when stored in Kafka follows:
Flume
Flume Agent internal principle
Flume Agent Polymerization
Flume load balancing
Kafka
Kafka Workflow 1
Kafka workflow 2
Kafka consumers high-order and low-order consumers
HBase
HBase Chart
HBase read data flow
HBase write data flow
Hive
1, HQL preparation, practice (be sure to write a good day !!! !!! Write a super important !!! manufacturers want to enter a must !!! cattle off network HQL exam: https: //www.nowcoder .com / TA / SQL)
2, Hive tuning: HTTPS: //www.cnblogs.com/chenmingjun/p/10452686.html
. 3, the data warehouse + theoretical number of simple structures warehouse
Sqoop
Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
Sqoop 的批量导入必须要会,面试经常要问。
DataX
是阿里开源的框架,支持很多数据源之间的转化。但是只开源了单节点的源代码,分布式的代码没有开源。
支持数据库如下:
Spark
二 大数据的企业应用
应用一:数据仓库的搭建
数据仓库各层图解
数据仓库涉及到的知识点
应用二:产品信息分析
应用三:用于行为分析
应用四:人工智能基础