1、グローバル順序(ORDER BY)
Order by:全局排序,只有一个reducer
ASC(アセンド):ASC(デフォルト)
DESC(下降):降順
図2に示すように、各MR内部ソート(並び替え)
並べ替え:大規模なデータを効率によって順序を設定するために非常に低いです。多くの場合、あなたは、ソートすることにより使用することができ、グローバルな順序付けを必要としません。
ソート減速することにより、各ファイルの並べ替えを生成します。各減速ソートの中で、グローバルな結果セットがソートされていません。
(1)設定の数を減らします
hive (default)> set mapreduce.job.reduces=3;
セクション番号の降順に従って、(2)ビュー従業員情報
hive (default)> select * from emp sort by empno desc;
3、ソートパーティション(BYを配布)
いくつかのケースでは、我々は特定の行は通常、後続の集計作業のため、減速機べきに制御する必要がありますすることで配布します。
使用してパーティションの結合、ソート、同様のパーティション(カスタムパーティション)にMRによる配布
複数を割り当てるためにテストの処理時間を短縮、または結果によって配布見ることができません
set mapreduce.job.reduces=3;
注意:
- パーティショニング・ルールによって配布モジュロハッシュコードの数に応じて行うと同じ領域に割り当てられたフィールドパーティション残りを低減さ
- あなたは文でソートを書く前に、ハイブの要件は声明で配布します
図4に示すように、クラスタによって
同じフィールドでによると、ソート配布するときは、途中でクラスタを使用することができます
機能に加えて、クラスタはまた、機能によって両方の一種で配布しています。しかし、並べ替え只能是升序排序
、あなたはASCまたはDESCの照合順序を指定することはできません。
1)2当量文言
hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;