order by
これは入力に対して実行される全局排序
ため、リデューサーは 1 つだけです (複数のリデューサーはグローバルな順序付けを保証できません)。入力スケールが大きい場合、計算時間が長くなります。
sort by
これは、データがリデューサーに入る前にソートを完了するグローバルソートではありません。
したがって、sort by で並べ替え、 を設定するとmapred.reduce.tasks>1
、sort by になります只保证每个 reducer 的输出有序,不保证全局有序
。
また次回、バイバイ!