大規模なデータレビューの電子ビジネスデータ分析のためのビッグデータ技術プラットフォームの_27_フレームワークは_01_ +大規模なエンタープライズ・アプリケーション・データを投影し

データの主な見直しの枠組み第二位のエンタープライズ・アプリケーション・データ


大規模データの枠組みを想起

Hadoop
ジョブダイアグラムや糸の糸枠組みや機構やジョブの投入プロセス提出
0、ジョブ投入図を


1、糸フレームワーク

2、糸作業機

3、ジョブ投入プロセスは、ソースグラフィックを解決します

シャッフルの導入のMapReduceのプロセス

  Shuffle 的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。
  MapReduce 中的 Shuffle 更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。
  为什么 MapReduce 计算模型需要 Shuffle 过程?我们都知道 MapReduce 计算模型一般包括两个重要的阶段:Map 是映射,负责数据的过滤分发;Reduce 是规约,负责数据的计算归并。
  Reduce 的数据来源于 MapMap 的输出即是 Reduce 的输入,Reduce 需要通过 Shuffle来 获取数据。
  从 Map 输出到 Reduce 输入的整个过程可以广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端,在 Map 端包括 Spill 过程,在 Reduce 端包括 copy 和 sort 过程,如图所示:

リングバッファスケッチ


飼育係
使用飼育係モニタ・サーバ・ノードを動的大文字と小文字

カフカに保存されている飼育係メンテナンス構造は次のとおりです。


水路

水路エージェントの内部原則

水路エージェント重合

水路のロードバランシング


カフカ

カフカのワークフロー1

カフカのワークフロー2

カフカの消費者の上位と下位の消費者


HBaseの

HBaseのチャート

HBaseのデータフローを読みます

HBaseの書き込みデータの流れ


ハイブ
1、HQLの準備、練習は(良い一日を書き込んでください!!! !!!超重要を書く!!!メーカーが必須に入りたい!!!牛オフネットワークHQL検査します。https://www.nowcoder .COM / TA / SQL)
2、ハイブチューニング:HTTPS://www.cnblogs.com/chenmingjun/p/10452686.html
。3、単純な構造のデータウェアハウス+理論数倉庫


Sqoop
Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

Sqoop 的批量导入必须要会,面试经常要问。

DataX
是阿里开源的框架,支持很多数据源之间的转化。但是只开源了单节点的源代码,分布式的代码没有开源。

支持数据库如下:

 


Spark

二 大数据的企业应用

应用一:数据仓库的搭建
数据仓库各层图解

数据仓库涉及到的知识点

应用二:产品信息分析

应用三:用于行为分析

应用四:人工智能基础

おすすめ

転載: www.cnblogs.com/chenmingjun/p/10947445.html