大規模なデータ周波数フェイス質問

問題点(焦点)インタビュー**

1.特性RDD(RDD説明)
1.RDDパーティションは、直列からなるものとして見ることができる
2.RDD間の依存関係
3.オペレータパーティションに作用しています
パーティションに作用する4は、RDDのKVの形態である
設け5.partitionを算出する最適な位置、すなわち、ローカライズされたデータへのデータの演算処理を移動ではなく、モバイルデータ容易
PSを:RDDデータそのものが格納されていない、それはのように見ることができますRDDは、それ自体が参照データ
RDDは弾性
1)自動的にメモリとディスクのデータストレージスイッチ
メモリが収まらない場合、それは内部のディスクを入れます、プログラムストアが自動的に切り替わり、メモリにスパーク優先順位データを
起源に基づいて)2を効率的なフォールトトレランス
RDDに変換して操作するとき、RDD、特定の故障RDDの形成系統依存性チェーンは、上流RDD RDDを再計算することにより、欠落したデータを再生することができます。
それは自動的に一定数の再試行します失敗した場合3)タスクは、
あなたが失敗した場合、それは自動的にタスクを再計算しますコンピューティングタスクRDDを、デフォルトの数は4倍です。
4)ステージが自動的に再試行の一定数の場合に失敗します。
ステージステージジョブの計算が失敗した場合、フレームワークが自動的にデフォルトの数は4倍で、タスクを再計算します。
5)チェックポイントとアクティブまたはパッシブトリガーこと永続
RDDで使用される場合RDDを介して持続することができ、RDDキャッシュメモリまたはディスクを永続化は、再びライン上で直接読み取ります。RDDがチェックポイントすることができる、チェックポイント・データは、RDD RDDは、すべての親の依存関係が削除されます、HDFSに保存されます。
6)データスケジューリング弾性
スパークは、このジョブの実行モデルは、DAG、ステージ複数のタスクを並列または直列に、自動編成処理エンジン故障、ステージタスクの失敗に行うことができる一般的な非循環有向グラフを抽象化。
7)弾性データ片の高さ
サービス特性に応じては、動的にアプリケーションの全体的な効率を向上させるデータ数を調整します。



2. RDDオペレータの2種類
RDDプログラミングAPI
コンバージョンアクションとアクションの操作:RDDは、2つの動作モードをサポートしています。RDD変換動作は、マップとして新しいRDD(の復帰動作である)とフィルタ()、及び操作アクションは、ドライバプログラムである結果または外部システムの書き込み動作の結果を返します。例えば、最初のカウント()と()。
スパークは、遅延評価モード、モバイルの操作で使用される唯一の最初のRDDを使用して、それが本当に計算されます。スパークは、全計算プロセスを最適化することができます。デフォルトでは、RDDのスパークは、あなたが動作するようにそれらを移動するたびに再計算されます。あなたは同じRDDを再利用したい場合は、RDD.persist()は、複数のアクション操作でRDDキャッシュされにスパークを許可することができます。
3.25.17変換演算子(重要)
RDD内のすべての変換はつまり、彼らが直接結果を計算していない、遅延ロードされています。その代わりに、彼らは単に、データセット(例えば、文書)に適用されるものに基づいて変換動作を覚え。ドライバーの行動に結果を返すように要求されたときにのみ、これらの変換は実際に実行されます発生します。この設計は、Sparkは、より効率的に実行することができます。
変換意味
マップ(FUNC)は変換関数func合成後の各入力要素によって新しいRDD、RDDを返す
フィルタ(FUNC)新しいRDDを返し、RDDは、演算関数func後真の入力要素の値を返します組成
flatMap(それはむしろ、単一の要素よりも、配列を返すべき機能)(FUNC)同様のマップが、各入力要素がゼロ以上の出力要素にマッピングすることができる
独立RDDにおけるmapPartitions(FUNC)同様のマップが、 RDD T、FUNC関数型はイテレータ[T] =>イテレータ[しなければならない場合、操作の種類、従って各サブチップ上で動作し、 U]
RDD Tは、関数func(INT、イテレータ[T])のタイプでなければならない場合mapPartitionsWithIndex(FUNC)類似mapPartitionsが、FUNC整数パラメータインデックス値とは、このように、操作の種類をスライスを示し =>イテレータ[U-]
サンプル(にwithReplacement、分数、シード)のサンプルデータの乱数を使用するかどうかを選択することができる部分を指定した比率に、置換シード乱数発生器のシード特定することに記載の
組合(otherDataset)ソースRDDとRDD要求パラメータセットは、新しいRDDリターン
ソースRDD後交差点(otherDataset)をして、新しいRDD戻すRDD交差点パラメータ
ソースRDDデ再新しいRDD戻った後)DISTINCT([numTasks])を
GroupByKey([numTasks]を)(Kにおいて、V)RDD呼の、それが返さRDDの[V])(K、イテレータ
にreduceByKey(FUNC、[numTasks])(K、Vに呼び出す)、RDD、(Kを返し、 V)RDD、特定の機能を低下させる、同じキー値が同様groupByKeyと共に重合される、タスクの数が第2オプションのパラメータで設定することができる減らす
aggregateByKey(zeroValue)(seqOp、combOp 、[ numTas KS同じキー再び重合zeroValue中中性初期値用いて重合操作の値]):戻り型の中性、定義された値を、およびコンピューティングSEQOPに関与する:同一のパーティションにcombOp連結値:異なる値についてpartitonを合わせ
sortByKey([昇順]、[numTasks ]) に(K、V)RDDは、コールの、K注文インタフェースを実装する必要が返さRDDの(K、V)のキーに従ってソート
SORTBY(FUNC、[昇順] )とsortByKey同様の、しかしより柔軟に[numTasks]
RDD呼のタイプ(K、V)、及び(K、W)中に(otherDataset、[numTasks])に参加、それは一緒に同じキーに対応するすべての要素を返します(K、(V、W) ) RDD用の
コグループ(otherDataset、[numTasks])タイプ(K、V)、及び(K、W)RDDコールの、(K、(反復処理可能<V>を返し 、反復処理可能<W>))RDD型
デカルトの(otherDataset)デカルト積の
新しいRDD生成するためのいくつかのシェルコマンドスパーク(コマンド、[envvarsが])パイプを
COALESCE(numPartitions)配分の
配分(numPartitions)配分の
(repartitionAndSortWithinPartitionsをパーティショナを)配分と注文
3.25.18アクション演算子(重要)を
RDDに対して計算を実行し、ドライバに結果を返すか、ファイルシステムへの書き込みを
意味操作
(FUNCを減らす)FUNC機能によってRDDのすべての要素を収集し、この機能がなければなりません交換平行とすることができる
ドライバで収集()に これは、データ・セットのすべての要素の配列を返します
()カウントRDDの要素の数を返す
)(最初の最初の要素RDD返す(同様のテイクを(1))
(N)を取るなるデータセットの最初のn個の要素のアレイを返し
takeSample(にwithReplacement、numは、 [SEED])データセットNUMランダムにサンプリングされた組成物の要素の配列を返し、乱数を用いて不足分を交換するか否かを選択することができるが、シード乱数発生器のシードを指定
)takeOrdered(nは、[順序]を同様のtakeOrderedとトップは、のみ返すように、逆の順序で最上位の要素
データセットのsaveAsTextFile(経路)の要素がテキストファイルのファイルシステムの形式でファイルシステムHDFSまたは他の支持体に保存され、各要素のために、スパークのtoStringを呼び出します文書テキストのための方法は、インストールされ
、指定されたディレクトリのHadoop SequenceFile形式で記憶素子にデータセットのsaveAsSequenceFile(パス)のHadoop HDFSまたはその他のファイルシステムをサポートすることができます。
saveAsObjectFile(パス)
(K、V)RDD、マップのリターン(K、int)を入力するためのcountByKey()は、各キーに対応する要素の数を表します。
データセット、関数func更新操作の各要素上のforeach(FUNC)。



3.原則演算子(オペレータシャッフル原則、リードシャッフル原理)
4.シャッフル原理(と違いHadoopのシャッフル)
シャッフルはマップとrefuce、マップや軽減の間のブリッジとの間で発生する、彼はいくつかの非があります定期的なプロセスのデータに定期的なデータは、時マップ側ディスクから読み取るために、システムディスクと合成に格納されたソート後、データ端末からのデータをマッピングするReduc端ソート処理されたデータパケットをプル
スパークシャッフルありますhashshuffle火花が使用
なし最適化がmaptask Executorの複数の各存在ではありません前に、それぞれがmaptaskの複数の持つことになりますhashbuffleを
、バケットファイルをこれらのバケットのグループ化を減らす、などバケットが多い、面倒な、遅いパケットを読んで、システムの効率に影響
maptaskグループの後にバケツでシャッフル(1.6から2.0バージョン)の後に一度の最適化をし、その後によるバケットの数を簡素化するものの、削減が、小さなファイルがたくさん残っている再処理
3は、ソートベースのシャッフル
あまりにも多くのファイルを生成し、キャッシュオーバーヘッドライターが過剰シャッフルプロセスの問題を緩和するために、火花が似て導入していました シャッフル機構OOPマップ-の削減です。各ShuffleMapTaskこのメカニズムは、後続のタスクのために別々のファイルを作成しませんが、すべてのタスクの結果は、同じファイルに書き込まれます、そして対応は、インデックスファイルを生成します。前のデータがオーバー塗装、今メモリ使用量を削減するために、メモリが十分でないとき、あなたはディスクへの出力オーバーフローをすることができます読み取り、ディスクにキャッシュされたデータまでメモリキャッシュです。端部は、これらの異なるファイル共同メモリデータがそれによって使用されるメモリの量を減少させる、合流します。一方で占有ライター・キャッシュ・メモリのサイズを削減する一方、ファイルの数が、大幅に削減すると同時に、GCと周波数の危険性を回避することができます。

BypassMergeSortShuffleWriter(バイパス機構)、SortShuffleWriter(一般的なメカニズム)とUnsafeShuffleWriter:ソートベースのシャッフルは、いくつかの異なる戦略があります。

BypassMergeSortShuffleWriterために、このモデルの使用は、によって特徴づけられる:
#シャッフルは、主重合プロセスに使用され、ソート処理を必要とせず、データはときに大きなデータ量、ネットワークI / Oおよびメモリ重い負担、ファイルに直接書き込まれます。
#減速をケースの比較的小さな数を処理するための主なタスク。
#各パーティションは別々のファイルに書き込まれ、そして最後に、これらのファイルをマージしたファイルの数を減らすことになります。しかし、このアプローチは、複数の同時オープンファイルを必要とし、メモリ消費量が比較的大きいです。
このように高速BypassMergeSortShuffleWriter SortShuffleWriterよりので、数が減速ではなく、重合を終了する必要はありませんし、マップに並べ替え、および数は減速spark.shuffle.sort.bypassMergeThresholdがしきい値(デフォルト200)、指定されたよりも小さいので、もしそれは(つまり、条件を可能にする)、この方法を使用することです。

SortShuffleWriterの場合、このモードを使用する機能は以下のとおりです。
データの#量が大きな、大きなシーンやクラスタサイズに適しています。
#の再配布シーケンサは重合しないローカルまたはターミナル重合マップをサポートすることができます。
外部シーケンサー機能がこぼれを有効にした場合、メモリが十分でない場合#は、ローカルディスクに書き込まれた第一の出力オーバーフロー、メモリとローカルディスクオーバーフローの書き込みファイルの最終結果は、マージすることができます。
さらに、ソートベースのシャッフルキュータ、すなわち同時実行の程度とは関係がない、無関係と核、データファイルである各々がShuffleMapTaskとインデックスファイルは、各パーティションのファイルShuffleMapTaskに対応するだけのいわゆる複合マージされたパーティションを有することになりますデータファイルだけ。だから、これはする必要があるとメカニズムの統合ハッシュ-BasedShuffleを区別しました。
UnsafeShuffleWriterによる注意の必要性のために、我々は分析を行うことはありません。

シャッフルチューニング
1.合成出力マップファイルを、ファイル機構spark.shuffle.consolidateFiles 2. spark.shuffle.file.bufferマップメモリバッファメモリを調整する活性化出力をマージし、比例spark.shuffle.memoryFractionを減らし、0.2
3. [shufflemananger

5計画を保持して、ポイントをチェックし、共有変数
https://blog.csdn.net/wjn19921104/article/details/80268661
6.パーティション(カスタムパーティション、デフォルトのパーティション、役割の違い)

(実行中のタスクの並列処理)文書参照チューニング1.2.3 7.並列処理


8.スパークタスクの動作原理(フォーカスの焦点は)

9.タスク(局在準位)の原則
タスクの実行前に取得されます。1.コンセプトは、パーティション情報のデータが割り当てられ、優先順位は常にネットワーク伝送低減することができる限り、データはそれを算出するノードに割り当てられます
、タイムアウト障害後の分布を再試行するために、一般的なデフォルト3S、5回:2工程再びデータ転送が発生した場合、最初のタスクBlockManagerによって取得されたデータは、ローカルデータの場合、データはノードデータBlockManager方法から取得されるとは、getRemoteに戻り、レベル差より局所レベルを割り当てる選択されますどこのノードタスク
3.レベルの
PROCESS_LOCAL:ローカライズのプロセス、最高のパフォーマンス。これはすなわち、同じエグゼキュータ、同じプロセス内でコードとデータを指す。blockmanagerエグゼキュータのデータの場合に、計算データ実行部によって実行されるタスク
NODE_LOCAL:ローカライゼーションノード。コードと同じノード内のデータ、データがデータブロックHDFSブロック・ノードとして格納されている
特定のexecutrorノードにおけるタスクの実行、及び又は同じタスクエグゼキュータ異なるノードにデータ、プロセスデータを介して送信される
NO_PREF:データ取得がデータベースからデータを取得するなど、同じである場合、のためのタスクの点で差がない
RACK_LOCAL:タスクデータと二つのノード上のラックは、ネットワーク間で転送されるデータは、ノード
タスクデータとすることがありますいずれかをどこでも、クラスタ内ではなく、ラック内の、最悪のパフォーマンス
4.調整:spark.locality.waitデフォルトパラメータの3Sは、デフォルトでは、次のパラメータは、デフォルト値、spark.locality.wait.process spark.locality.wait.node火花をspark.locality.waitになっています。 locality.wait.rack
最適配分効果算出異なる値調整することにより、実際の状況を

原理10 DAG(ソース・コード・レベル)
、時間分割ステージ、方法createResultStage ResultStageによって作成された後、再帰的な導出方法に従ってgetShuffleDependenciesを何のインバウンドを邁進し続けていない場合は、原則として、全ての解析まで、その親ノードとなり、それがシャッフルであれば、駅への最後のRDD、裁判官と彼の父、彼の関係RDDで、その後、ShuffleMapStageを分割します依存性は、全体の依存性のセットを生成し、getOrCreateShuffleMapStageステージを生成するための方法に、再帰的メソッドsubmitStage submitMissingTasks段階法により全ステージ(類似RDD分割)を見つけ、最終的にgetMissingParentStages方法submitStage法により分割されたステージの全てを達成するであろうタスク封止

11を差SparkSQLとハイブを

PS:https://www.cnblogs.com/lixiaochun/p/9446350.html
12 DFとDS(その型から)との関係
DATAFRAME弱い型、抽象データセットであり、RDDのスキーマセットは、二次元テーブルとして動作することができる
データセット:親クラスに属するデータフレーム、データフレーム=データセット[行]、強く型付けされました

13窓関数(ランキング関数)
ランク()ソートジャンプしたとき、()第開くために、2つの残っている場合に亘っ第続く第DENSE_RANK、続いて第二の場所()連続配列決定、後ろ2があります窓関数は:
;重合関数を使用した後、複数行の行になり、行が複数の行にウィンドウ関数である
カラムによってグループに追加されなければならない追加の列を表示するために、使用集計関数の後、窓関数の使用は、によってグループを使用することなく、すべての情報がそのまま表示されています。
窓関数は、各行の最後の列に重合の機能を追加した結果に適用されます。
窓関数使用:
。(上集計関数()())は、各データの1.に関する情報を表示
2.各データパケットは重合の結果の関数に提供される(フィールドによってパーティション(オーバー重合関数())別名として)
-パケットフィールドに従って、パケットが算出される
(順(上行番号を()を使用することによって一緒にランク付け関数3と、)別名として)フィールド):(最も一般的に使用される解析機能は、1.2.3をソートしなければならない
1、ROW_NUMBER ()(... ...によるパーティション順)を超える2、ランク()(... ...によるパーティション順)を超える
。3、DENSE_RANK()... ...パーティションによってによって(注文以上)
。4、COUNT()... ...によって隔壁によって(注文)を超える
。5、オーバーMAX()(... ...によるパーティション順)
。6、分()(...によってパーティション順)を超える
。7、SUM()(...によってパーティション順)を超える
。8、AVG()によって(によって...パーティションの順序を...)
。9、FIRST_VALUE()...)によって隔壁によって(順序を
...によって隔壁によって(オーダー)にわたって10、LAST_VALUE()
。11、LAG()(上隔壁によって。 ... ..順)12)...によって隔壁によって(順上リード()であり、
LAG及びリードは、結果セット、オフセットに隣接して配置された複数の特定の並べ替え現在の縦線を得ることができます列の行が(相関セットから生じない); LAGは、それぞれ、後方、前方に導き、
最初のパラメータは、列の名前であり、LAGリードと3つのパラメータを有し、第2のパラメータは、オフセットドリフトがあります3番目のパラメータは超える記録ウィンドウの時にデフォルト値である

14 SparkSQL-UDF(カスタム関数)を



15 SparkStreamingドッキングカフカ(キー)2通りの方法で


データのバックログの問題を解決する(または背圧メカニズムを高めるためにどのように16とパーティション消費者)
背圧メカニズム:
理由:データ処理に蓄積されたデータは、時間の各間隔(バッチ間隔)を介してバッチとして周期スパークストリーミングに流入連続流入し、その後入力RDDジョブDAGとしてこのバッチのデータが新たに提出しますジョブが実行されます。バッチは、バッチ処理時間間隔よりも大きい場合、それはデータ受信速度データ処理がペースを保つことができないことを意味し、データ受信側において、この時間は(すなわち、データ受信機受信機は、典型的に執行上で実行)である、データを蓄積しますデータはMEMORY_ONLYモードを使用して格納されている場合BlockManager管理により、ディスクに保存さMEMORY_AND_DISK冗長データを使用して、OOMにつながるが、データが時間を読んで増加します。

パラメータ:
第2レート推定spark.streaming.backpressure.rateEstimatorクラス番号ごとにパーティションごとに背圧spark.streaming.kafka.maxRatePerPartition消費を開くように設定さspark.streaming.backpressure.enabled真で、デフォルト値のPID、現在のスパークこれだけをサポートしています。


どのようにデータの整合性の問題(生産者と消費者)を保証するために17



18 Aカフカデータ伝達機構(図を参照)

失われない19. Aカフカそのデータを確保する方法(消費者)

20データ型のRedis・

21 A Redisの永続性
RDBを持続が完了したスナップショット(スナップショット)の方法によるものである、Redisのは、自動的に特定の条件が満たされたときに、メモリ内のデータのスナップショットを取得し、ディスクに保存されます。
RDBは、デフォルトで使用される永続的なマナーのRedisで、デフォルトの設定ファイルは、このredis.confの構成を有している:900 1を保存します
RDBの方法によって持続性のために、Redisの異常終了したら、最後のスナップショットの後にすべてのデータ変更を失うことになります。これは、特定のアプリケーション、許容範囲内のコントロールの損失の可能性への自動スナップショットデータの組み合わせによって設定された条件に応じて現像剤を必要とします。データは、彼らがすべての損失を余裕がないことが非常に重要である場合は、永続性のためAOFの方法を使用して検討するかもしれません。

22. Redisのとアバランシェ降伏(インタビュー参照コレクション、下)

原則としてRedisのクラスタ23(クラスタを達成するために注意を払う必要があります)


24. A SparkStreamingは(UpdateStateBykeyとMapwithState参照)の操作を蓄積
https://blog.csdn.net/ zhanglh046 / Articleこの記事は、78505124 / /詳細ました
https://www.cnblogs.com/yinpin2011/p/5539708.html
ForeachRDD間の差が変換し、25


差分演算子のプロモーター(MapPartitionsと地図とforeachPartitionのforeachまたは異なる)を26


何27これはDSTREAMである
スパークストリーミングの概要
ストリーミングデータを処理するため、Apacheの嵐に似スパークストリーミング。その公式文書で説明によると、強力な高スループットとフォールトトレランス機能をストリーミングスパーク。その上カフカ、水路、ツイッター、ZeroMQとシンプルなTCPソケットと:スパークストリーミングのような、データ入力ソースの多くをサポートしています。マップ、低減、参加、窓等を算出する:データ入力後のようなスパーク高抽象プリミティブであってもよいです。結果は、このようなようにHDFS、データベース、など多くの場所に保存することができます。さらにスパークストリーミングすることができますし、MLlib(機械学習)とGraphx完璧な融合で。
DSTREAMコンセプト
離散化ストリームは、様々なスパーク基本操作の結果による永続的なデータ・フローとデータフローに代わって、抽象化の基礎をストリーミングスパークです。内部実装に、DSTREAMを表現する連続RDDのシリーズです。以下に示すように、時間間隔にわたって各RDD含むデータは、:
DSTREAMは説明(重要)プリミティブ型
に加えてスイッチング動作とDSTREAM RDD上のプリミティブと同様、分割変換(変換)と出力動作(出力) updateStateByKey()()ウィンドウ及び様々な関連プリミティブを変換し、次のようないくつかの特別なプリミティブがあります。
詳細:スパークストリーミングコースウェアを参照してください。


28.チューニング文書(スパークチューニングを参照)
29データチルト溶液(スパークコア分析およびチューニングガイド参照)
30.チューニングJVM(火花同調参照文献)
31 GCのガベージコレクション機構(アルゴリズム理論)
32手書きまたは他の迅速な排水アルゴリズム(アルゴリズムベース)
33.メモリモデルスパーク
34手書きシングルトンのHadoop
1. HDFSファイルストレージメカニズム(書き込み処理)


2. MRの原則(MAPおよび削減)3.シャッフル原則
4 。ハイブ内側及び外側のシート
5ハイブの動的分割
6ハイブ部門は槽
7は、ハイブとハイブと8差のMysql HBaseの差
(インタビューコレクションを参照)9.ハイブを調整する



(ホットスポットを10. HBaseの何)を回避する方法、トリガするときに
Aをホット問題ために発生し、
図1に示すように、データは、個々の領域への書き込みでのrowKey連続フォーカスの場合多数、不均一な分布との間のデータの各領域、辞書HBaseの順序に従ってソートされ、
2、何の事前ないテーブルを作成するためのパーティションを事前に、テーブルはデフォルトの1つの領域のみ、現在の領域に書き込まれた大量のデータにより作成された;
3、事前パーティションテーブルが事前に作成されましたが、フォローするのrowKeyのデザインはありませんルール、セット rowKeyはregionNo +のmessageIdで構成されなければならない

第二に、塩の溶液
ここで言及した塩は、暗号化塩ではなく、特に乱数のrowKeyフロントの増加は、そののrowKey異なるの開始前にランダムのrowKeyプレフィックスにしていることを割り当てられています。プレフィックスと種の分布の数は、同じ番号の別の領域を使用するデータに分権化されなければなりません。rowKey分散液を塩析した後、ホットスポットを回避するために、それぞれの領域に応じてランダムに生成された接頭辞であろう。
ハッシュ
ハッシュは常に塩の接頭辞と同じ行になります。ハッシュは、クラスタ間で負荷を分散さが、それを読んだことは予測可能であることができます。決定されたハッシュを使用して、クライアントが完全にのrowKeyを再構成することができ、操作を正確に特定の行のデータ反転取得するために使用されてもよい得る
ホットのrowKeyを防止する第3の方法では、反転された固定長又はデジタルフォーマット。これは、常に手前に変化する部分(最下位部分)のrowKeyになります。これは、しかし、のrowKeyを注文を犠牲にして、効果的にランダムのrowKeyをすることができます。
逆電話番号の文字列の後に電話番号のrowKeyと逆のrowKeyの例としては、逆ので、原因を固定し、ホットな問題の先頭にタイムスタンプを比較し、携帯電話の番号を避け、のrowKeyとして使用することができる
共通のデータ処理の問題をこの問題のデータの最新バージョンへの迅速なアクセス、のrowKeyの一環として、逆タイムスタンプの使用に非常に便利な、あなたははLong.MAX_VALUEを使用することができます-例えば、タイムスタンプの最後に追加キー、[キー]
[reverse_timestamp]、[キー]は最新の値であります最初は、[キー]スキャンで[キー]を得ることができる

11.原理のHBase(読み取りおよび店舗)


12の設計原理HbaseRowKey
1.RowKey長原理、64キロバイトの最大長さは、典型的には一定の長さに設計しました。アドバイスはできるだけ短く、16以上のバイト長とメモリないスペースがHFILEを占領しました
2.RowKeyハッシュ原則:のrowKeyのタイムスタンプが途中でインクリメントされている場合は、バイナリコードの前に時間をかけないでください、それはお勧めである
プログラムサイクルによって生成されたハッシュフィールドとしてのrowKey高値、低時間フィールドを置き、
3.RowKey唯一の原則:それはデザインの一意性を保証しなければなりません。rowKeyが辞書に応じてソートされたストアデータは、一緒に読んで、多くの場合、最新のデータが一枚上でアクセスすることができるまで、この種の特性を最大限に活用するために、保存されています。

他のデータベース(機能)に比べて13 HBaseの利点


があるうち14.水路ソース源


15水路の高可用性(ハイアベイラビリティを実現する方法)


16. Linuxのコマンド、HDFSのコマンド(基本コマンド)
選挙機構17飼育係さん(内部達成するためにどのように)
18 Oozieとアズカバンの違い(主にコンフィギュレーション)
19ブルームフィルタ(原則)


のアルゴリズムの1〜2種類(原則)を習得する

事を知っておく必要があります
。1.プロジェクトのフレームワーク:すべて
2.プロジェクトのプロセス:データをトレンド、データ処理時間インジケーター
3.プロジェクト要員
のデータ量4.プロジェクト
5.問題プロジェクトカフカの質問の大半(データの整合性、データの整合性、動的パーティション拡張、データのバックログ、カフカのスループット)問題をsparkStreaming(助成金時間データの量、バッチ間隔、ジョブ待ち)
6クラスタサイズ(高可用性)
7.商品説明

おすすめ

転載: www.cnblogs.com/-courage/p/11497355.html