Hive の sort by と order by の違い

order byこれは入力に対して実行される全局排序ため、リデューサーは 1 つだけです (複数のリデューサーはグローバルな順序付けを保証できません)。入力スケールが大きい場合、計算時間が長くなります。

sort byこれは、データがリデューサーに入る前にソートを完了するグローバルソートではありません。
したがって、sort by で並べ替え、 を設定するとmapred.reduce.tasks>1、sort by になります只保证每个 reducer 的输出有序,不保证全局有序


また次回、バイバイ!

おすすめ

転載: blog.csdn.net/frdevolcqzyxynjds/article/details/131856333