_27_ framework of big data technology platform for electronic business data analysis of large data review projects _01_ + large enterprise application data

Framework of a major review of data the second largest enterprise application data


Recalling the framework of a large data

Hadoop
job diagram or submit YARN YARN framework or mechanism or job submission process
0, job submission diagram


1, YARN framework

2, YARN working mechanism

3, job submission process to resolve the source graphic

MapReduce process of introduction of Shuffle

  Shuffle 的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。
  MapReduce 中的 Shuffle 更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。
  为什么 MapReduce 计算模型需要 Shuffle 过程?我们都知道 MapReduce 计算模型一般包括两个重要的阶段:Map 是映射,负责数据的过滤分发;Reduce 是规约,负责数据的计算归并。
  Reduce 的数据来源于 MapMap 的输出即是 Reduce 的输入,Reduce 需要通过 Shuffle来 获取数据。
  从 Map 输出到 Reduce 输入的整个过程可以广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端,在 Map 端包括 Spill 过程,在 Reduce 端包括 copy 和 sort 过程,如图所示:

Ring buffer sketch


Zookeeper
use zookeeper monitor server node dynamically upper and lower case

Zookeeper maintenance structure when stored in Kafka follows:


Flume

Flume Agent internal principle

Flume Agent Polymerization

Flume load balancing


Kafka

Kafka Workflow 1

Kafka workflow 2

Kafka consumers high-order and low-order consumers


HBase

HBase Chart

HBase read data flow

HBase write data flow


Hive
1, HQL preparation, practice (be sure to write a good day !!! !!! Write a super important !!! manufacturers want to enter a must !!! cattle off network HQL exam: https: //www.nowcoder .com / TA / SQL)
2, Hive tuning: HTTPS: //www.cnblogs.com/chenmingjun/p/10452686.html
. 3, the data warehouse + theoretical number of simple structures warehouse


Sqoop
Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

Sqoop 的批量导入必须要会,面试经常要问。

DataX
是阿里开源的框架,支持很多数据源之间的转化。但是只开源了单节点的源代码,分布式的代码没有开源。

支持数据库如下:

 


Spark

二 大数据的企业应用

应用一:数据仓库的搭建
数据仓库各层图解

数据仓库涉及到的知识点

应用二:产品信息分析

应用三:用于行为分析

应用四:人工智能基础

Guess you like

Origin www.cnblogs.com/chenmingjun/p/10947445.html