Prétraitement des données─traitement des valeurs manquantes

Les données sauvages comportent souvent des valeurs manquantes, ce qui est facile à comprendre. Nous remplissons souvent les formulaires à la hâte et certains contenus peuvent manquer. Par exemple, laisser un blanc dans la colonne sexe est une valeur manquante.

Pour effectuer un nettoyage des données, ces valeurs manquantes doivent être traitées. Alors, quelle est la procédure de traitement standard en cas de valeurs manquantes ? Il n'y a pas de réponse à cette question. Le traitement des données manquantes est un art. Pensez-y. Le formulaire que vous avez soumis a omis l'élément de genre. Lorsque le formulaire m'a été transféré, je l'ai regardé. Vous avez manqué un élément, mais je ne vous ai jamais rencontré auparavant, il n'est pas approprié de le laisser vide, et il semble inapproprié de remplir les champs masculin et féminin.

De manière générale, il existe quatre méthodes de traitement :

1. Notre famille a une méthode de traitement de type mine, jetez-la

Tant qu'il y a une valeur manquante dans un certain échantillon, l'échantillon sera directement rejeté. Hors de vue, hors de l'esprit, il n'y aura plus de problèmes. Cette méthode présente des avantages exceptionnels, elle est simple et grossière, permet d'économiser du temps et des efforts, et l'outil de traitement de données bien connu pandas fournit spécifiquement la méthode dropna. Mais les défauts sont également très importants : un échantillon de données précieuses est gaspillé parce qu'il est taché de saleté.

D'une manière générale, cette méthode peut être envisagée lorsque la qualité des données est relativement bonne et que la proportion de valeurs manquantes est faible.

2. La méthode de traitement du type de boue fine, remplissant la valeur moyenne

Si vous ne supprimez pas les échantillons avec des valeurs manquantes et souhaitez alimenter les données, vous devez les réaffecter. Si ce comportement est implémenté en ligne, cela signifie un peu de « fabrication de données ». Une fois que l'affectation montre un certain biais, , affectera le distribution globale des données de l’ensemble de l’échantillon, et conduira éventuellement à un certain écart dans la prédiction du modèle d’apprentissage automatique.

alors que devons-nous faire ? et de la boue fine, remplissez la valeur moyenne. Puisque la valeur moyenne n'affectera pas la situation globale, elle résout également le problème des valeurs manquantes. D'un point de vue statistique, en plus de renseigner la moyenne, vous pouvez également choisir de renseigner le mode et la médiane. Les effets sont légèrement différents, mais le point de départ est le même.

3. Méthode de traitement technique, remplissage des valeurs

Cette méthode de traitement est relativement simple : par exemple, si la valeur de l'échantillon précédent est 7, et la valeur du dernier échantillon est 9, et qu'il manque une valeur dans l'échantillon du milieu, que faut-il remplir ? Naturellement, remplissez un 8. Il existe de nombreuses façons de procéder.

remplissage de cartes chaudes

La méthode de remplissage de la carte chaude consiste à trouver l'objet qui lui ressemble le plus dans les données complètes, puis à le remplir avec la valeur de cet objet similaire. Habituellement, plusieurs objets similaires sont trouvés. Il n'y a pas de meilleur parmi tous les objets correspondants, mais un est sélectionné au hasard comme valeur de remplissage. La clé de ce problème réside dans le fait que différentes questions peuvent utiliser différentes normes pour déterminer la similarité et dans la manière de formuler cette norme de détermination. Cette méthode est conceptuellement simple et utilise la relation entre les données pour estimer des valeurs nulles. Cependant, l'inconvénient est qu'il est difficile de définir des normes de similarité et qu'il existe de nombreux facteurs subjectifs.

K-moyennes

En utilisant la méthode de clustering d'apprentissage automatique non supervisé, tous les échantillons sont regroupés et divisés par la méthode de clustering K-means, puis les valeurs manquantes dans chaque classe sont remplies par la valeur moyenne des catégories divisées. L'essentiel est de combler les valeurs manquantes en trouvant des similitudes. Généralement, les K échantillons les plus proches de l'échantillon avec des données manquantes sont d'abord déterminés sur la base d'une analyse de distance euclidienne ou de corrélation, et les valeurs K sont pondérées et moyennées pour estimer les données manquantes de l'échantillon.

Ajuster les valeurs manquantes

L'ajustement consiste à utiliser d'autres variables comme entrée du modèle pour prédire les variables manquantes. C'est la même chose que notre méthode de modélisation normale, sauf que la variable cible devient une valeur manquante.

Notez que si d'autres variables de caractéristiques ne sont pas liées à la variable manquante, les résultats prédits n'auront aucun sens. Si le résultat de la prédiction est assez précis, cela signifie qu'il n'est pas du tout nécessaire de prédire cette variable, car il doit y avoir des informations répétées avec la variable caractéristique. Dans des circonstances normales, le meilleur effet se situera entre les deux. Si l'autocorrélation est introduite après avoir forcé le remplissage des valeurs manquantes, cela entraînera des obstacles à l'analyse ultérieure.

4. Méthodes de traitement imprévisibles et prédictions du modèle

Il existe de nombreuses façons d’utiliser des modèles pour prédire les variables manquantes. En voici quelques-unes brièvement présentées.

prédiction de régression

Sur la base de l'ensemble complet de données, une équation de régression (modèle) est établie. Pour les objets contenant des valeurs nulles, les valeurs d'attribut connues sont insérées dans l'équation pour estimer les valeurs d'attribut inconnues, et les valeurs estimées sont utilisées pour remplir les objets. Des estimations biaisées surviennent lorsque les variables ne sont pas liées de manière linéaire ou lorsque les prédicteurs sont fortement corrélés.

Estimation de vraisemblance maximale

À condition que le type manquant manque au hasard, en supposant que le modèle soit correct pour l'échantillon complet, les paramètres inconnus peuvent être estimés avec le maximum de vraisemblance grâce à la distribution marginale des données observées (Little et Rubin). Cette méthode est également appelée estimation du maximum de vraisemblance qui ignore les valeurs manquantes. La méthode de calcul souvent utilisée en pratique pour l'estimation des paramètres du maximum de vraisemblance est la maximisation des attentes (EM). Cette méthode est plus attrayante que la suppression de cas et l’interpolation à valeur unique, et elle repose sur un principe important : elle convient aux grands échantillons. Le nombre d'échantillons valides est suffisant pour garantir que les estimations ML sont asymptotiquement impartiales et suivent une distribution normale. Cependant, cette méthode peut tomber dans des extrêmes locaux, la vitesse de convergence n’est pas très rapide, le calcul est complexe et limité aux modèles linéaires.

imputation multiple

L'idée de l'interpolation multi-valeurs vient de l'estimation bayésienne, qui considère que la valeur à interpoler est aléatoire et que sa valeur provient de la valeur observée. Dans la pratique spécifique, la valeur à interpoler est généralement estimée, puis différents bruits sont ajoutés pour former plusieurs ensembles de valeurs d'interpolation facultatives. Sélectionnez la valeur d'interpolation la plus appropriée en fonction d'une certaine base de sélection.

On voit que les méthodes d'ajustement et de remplacement proposées ci-dessus sont toutes des méthodes d'interpolation unique, et l'imputation multiple compense les défauts de l'imputation unique. Elle ne tente pas d'estimer chaque valeur manquante à travers des valeurs simulées, mais propose un échantillon aléatoire de valeurs de données manquantes. ​​(ces échantillons peuvent être une combinaison de différents résultats d'ajustement de modèle). La mise en œuvre de cette procédure reflète de manière appropriée l'incertitude due aux valeurs manquantes, rendant ainsi les statistiques valides. L'imputation multiple peut être divisée en trois étapes :

  1. Produire un ensemble de valeurs imputées possibles pour chaque valeur manquante qui reflètent l'incertitude du modèle de non-réponse ;

  2. Chaque ensemble de données imputées a été analysé statistiquement à l'aide des méthodes statistiques utilisées pour l'ensemble de données complet ;

  3. Les résultats de chaque ensemble de données imputées sont sélectionnés en fonction de la fonction de notation pour produire la valeur interpolée finale ;

En fonction du mécanisme, du modèle et du type de variable manquants, de la régression, de l'appariement moyen prédictif (PMM), du score de propension (PS), de la régression logistique, de l'analyse discriminante et de la chaîne de Markov Monte Carlo (Markov Chain Monte Carlo, MCMC) et d'autres différents les méthodes sont utilisées pour remplir.

Supposons qu'un ensemble de données comprenne trois variables Y1, Y2 et Y3 et que leur distribution conjointe soit une distribution normale. Cet ensemble de données est traité en trois groupes. Le groupe A conserve les données d'origine, le groupe B ne manque que de Y3 et le groupe B conserve les données d'origine. C manque Y1 et Y2. Lors de l'interpolation multi-valeurs, aucun traitement ne sera effectué sur le groupe A, un ensemble de valeurs estimées de Y3 sera généré pour le groupe B (régression de Y3 sur Y1, Y2), et un ensemble d'estimations appariées de Y1 et Y2 sera généré pour le groupe C. Valeur (régression de Y1 et Y2 sur Y3).

Lors de l'utilisation de l'interpolation à valeurs multiples, le groupe A ne sera pas traité et des échantillons complets des groupes B et C seront sélectionnés au hasard pour former m groupes (m est le m groupe facultatif de valeurs d'interpolation). Le nombre d'observations dans chaque groupe est le plus longtemps possible. Il suffit d’estimer efficacement les paramètres. Estimez la distribution des attributs avec des valeurs manquantes, puis sur la base de ces m groupes d'observations, générez m groupes de valeurs estimées de paramètres pour ces m groupes d'échantillons, et donnez les prédictions correspondantes. La méthode d'estimation utilisée à ce moment est maximale similarité.Méthode aléatoire, l'algorithme de mise en œuvre spécifique dans l'ordinateur est la méthode de maximisation des attentes (EM). Pour le groupe B, un groupe de valeurs Y3 sera estimé. Pour le groupe C, un groupe de (Y1, Y2) sera estimé en partant du principe que la distribution conjointe de Y1, Y2, Y3 est une distribution normale.

Dans l’exemple ci-dessus, on suppose que la distribution conjointe de Y1, Y2 et Y3 est une distribution normale. Cette hypothèse est artificielle, mais il a été vérifié (Graham et Schafer 1999) que les variables non normales distribuées conjointement peuvent toujours être estimées à des résultats très proches de la valeur réelle sous cette hypothèse.

Remarque : L'utilisation de l'imputation multiple nécessite que les valeurs de données manquantes soient manquantes au hasard. Généralement, le nombre de répétitions est de 20 à 50, ce qui est très précis, mais le calcul est également très compliqué et nécessite de nombreux calculs.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_45277161/article/details/132969668
conseillé
Classement