ソートハイブ

1、グローバル順序(ORDER BY)

Order by:全局排序,只有一个reducer

ASC(アセンド):ASC(デフォルト)

DESC(下降):降順

図2に示すように、各MR内部ソート(並び替え)

並べ替え:大規模なデータを効率によって順序を設定するために非常に低いです。多くの場合、あなたは、ソートすることにより使用することができ、グローバルな順序付けを必要としません。

ソート減速することにより、各ファイルの並べ替えを生成します。各減速ソートの中で、グローバルな結果セットがソートされていません。

(1)設定の数を減らします

hive (default)> set mapreduce.job.reduces=3;

セクション番号の降順に従って、(2)ビュー従業員情報

hive (default)> select * from emp sort by empno desc;

3、ソートパーティション(BYを配布)

いくつかのケースでは、我々は特定の行は通常、後続の集計作業のため、減速機べきに制御する必要がありますすることで配布します。

使用してパーティションの結合、ソート、同様のパーティション(カスタムパーティション)にMRによる配布

複数を割り当てるためにテストの処理時間を短縮、または結果によって配布見ることができません

 set mapreduce.job.reduces=3;

注意:

  • パーティショニング・ルールによって配布モジュロハッシュコードの数に応じて行うと同じ領域に割り当てられたフィールドパーティション残りを低減さ
  • あなたは文でソートを書く前に、ハイブの要件は声明で配布します

図4に示すように、クラスタによって

同じフィールドでによると、ソート配布するときは、途中でクラスタを使用することができます

機能に加えて、クラスタはまた、機能によって両方の一種で配布しています。しかし、並べ替え只能是升序排序、あなたはASCまたはDESCの照合順序を指定することはできません。

1)2当量文言

hive (default)> select * from emp cluster by deptno;

hive (default)> select * from emp distribute by deptno sort by deptno;

おすすめ

転載: www.cnblogs.com/hyunbar/p/11728550.html