La différence et l'utilisation de partition by et group by dans sparkSQL

1. La différence et la connexion entre la partition par et le groupe par

1) regrouper par est une fonction de regroupement, et partitionner par est une fonction d'analyse (puis les fonctions d'agrégation comme sum ())

2) Dans l'ordre d'exécution, la partition par est appliquée après les mots clés ci-dessus, en fait, une fois la sélection effectuée, la partition est effectuée sur l'ensemble de résultats obtenu et le groupe par utilise la priorité des mots clés SQL courants (de> où> grouper par > avoir> commander par)

3) Par rapport à grouper par, la partition par ne peut trier que certains des champs sur la base de la conservation de toutes les données , et grouper par ne conserve que les résultats des champs et des fonctions d'agrégation qui participent au regroupement

 

Je suppose que tu aimes

Origine www.cnblogs.com/yyy-blog/p/12711701.html
conseillé
Classement