インパラの記録で発生する問題

たくさんのとインパラの最初の接触は、で記録されたいくつかのピット上のステップは非常に明確ではありません
。1.問題:テーブル結合時にメモリオーバーフローが発生する
ソリューションを次の2つのテーブルを行ったために統計情報を計算し、手術台上のインパラがないので、この情報を更新し、メタストアに保存されます計算の統計情報を使用して、(一部の消費があるでしょうので、この操作は)構造の統計的分析は、すぐにテーブルと列は、インパラは、テーブル、クエリを連結した場合の消費を減らすために、クエリ戦略を最適化するために、この情報を使用しますでしょう。
参考https://docs.cloudera.com/documentation/enterprise/5-9-x/topics/impala_compute_stats.html

2.質問:私たちは、各impaladノード(クラスタ同期DLLを設定しない場合は、クラスタノードがデータを同期していない)を実行した後にデータの同期を確保する方法を、インパラのSQLを実行するためのサービス・インターフェースを持っている
私たち、公式の考え方によると:ソリューションSQLは、クラスタ同期が偽のdll設定、そして、クラスタ同期DLLが真で設定し、一時テーブルの実行後の空白を作成し、一時テーブルを降ろし、その後、クラスタデータが同期され、最高のパフォーマンスをしています。
参考https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala.html

3.質問:非常に遅いの表は、参加発生
を検討するために、左、右の表(マシンに残されたテーブルデータの数を乗じ、右表のサイズに放送する量に相当)をブロードキャストします参加する場合、参加放送の量を考慮すること:回避策を良いSQLの適切な最適化や、テーブルの右のサイズをきれいには、不要なデータテーブルを小さくします

おすすめ

転載: blog.51cto.com/13665344/2446072