Exploration complète des données à l'aide de Python - Prix des logements - Techniques de régression avancées

"Le plus difficile dans la vie, c'est de se connaître"

Ces mots viennent de Thalès de Milet. Thales était un philosophe, mathématicien et astronome grec/phonécien considéré comme la première personne de la civilisation occidentale à se divertir et à s'engager dans la pensée scientifique (Source : https://en.wikipedia.org/wiki/Thales)

Je ne dirais pas que comprendre vos données est la chose la plus difficile à faire en science des données, mais cela prend du temps. Par conséquent, il est facile de négliger cette première étape et de se jeter à l'eau prématurément.

Alors j'essaye d'apprendre à nager avant de me jeter à l'eau. J'ai fait de mon mieux pour fournir une analyse complète mais non exhaustive des données, basée sur le chapitre "Inspecting your data" de Hair et al (2013). Je suis loin de rapporter des recherches rigoureuses sur ce noyau, mais j'espère qu'il sera utile à la communauté, alors je partage comment j'ai appliqué ces principes d'analyse de données à ce problème.

Malgré les noms bizarres que j'ai donnés aux chapitres, voici ce que nous faisons dans ce noyau :

Comprendre le problème. Examinons chaque variable et faisons une analyse philosophique de leur signification et de leur importance.
Etudes univariées. Concentrons-nous simplement sur la variable dépendante ('SalePrice') et essayons d'en savoir plus à son sujet.
Recherche multivariée. Nous allons essayer de comprendre la relation entre les variables dépendantes et indépendantes.
Nettoyage de base. Nous allons nettoyer l'ensemble de données et traiter les données manquantes, les valeurs aberrantes et les variables catégorielles.
Hypothèses à tester. Nous vérifierons que nos données répondent aux hypothèses requises par la plupart des techniques multivariées.
Maintenant, il est temps de jouer !

1. Alors... à quoi pouvons-nous nous attendre ?
Pour comprendre nos données, nous pouvons examiner chaque variable et essayer de comprendre ce qu'elles signifient et comment elles sont liées à cette question. Je sais que cela prend du temps, mais cela ajoutera de la saveur à notre ensemble de données.

Pour avoir une certaine régularité dans notre analyse, nous pouvons créer une feuille de calcul Excel avec les colonnes suivantes :

variable - nom de la variable.
type - ID du type de variable. Ce champ a deux valeurs possibles : "numérique" ou "catégoriel". Par "numérique", nous entendons que les valeurs de la variable sont des nombres, et par "catégoriel", nous entendons que les valeurs de la variable sont des catégories.
Segmentation - Détermine la segmentation de la variable. On peut définir trois parties possibles : l'architecture, l'espace ou le lieu. Quand on dit "bâtiment", on entend des variables liées aux propriétés physiques du bâtiment (ex : "OverallQual"). Lorsque nous disons "espace", nous entendons une variable qui rapporte les propriétés spatiales de la maison (par exemple : "TotalBsmtSF"). Enfin, lorsque nous disons "emplacement", nous entendons une variable qui fournit des informations sur l'emplacement de la maison. "Communauté").
Attente - notre attente de l'effet de la variable "SalePrice". Nous pourrions utiliser "Élevé", "Moyen" et "Faible" comme échelle catégorielle de valeurs possibles.
Conclusion - Après un examen rapide des données, nous tirons une conclusion sur l'importance de la variable. Nous pouvons utiliser la même échelle de classification que "l'attente".
Commentaires - Tout commentaire général qui nous vient à l'esprit.
Alors que "Type" et "Segmentation" sont juste pour une éventuelle référence future, la colonne "Attente" est importante car elle nous aidera à développer un "sixième sens". Pour remplir cette colonne, nous devons lire les descriptions de toutes les variables et nous demander une par une :

Considérons-nous cette variable lors de l'achat d'une maison ? (Par exemple, lorsque nous considérons la maison de nos rêves, nous soucions-nous de son "type de placage de maçonnerie" ?) Si oui, quelle est l'importance de cette variable ? (Par exemple, quel est l'
effet d'utiliser un matériau « excellent » au lieu d'un matériau « médiocre » à l'extérieur ? « Excellent » au lieu de « Bon » ?).
Cette information est-elle déjà décrite dans d'autres variables ? (Par exemple, si "LandContour" donne la planéité du terrain, a-t-on vraiment besoin de connaître "LandSlope" ?) Après cet exercice de taille, on peut filtrer Spreadsheet et regarder attentivement les
variables avec des "attentes" "élevées". Nous pouvons ensuite tracer des diagrammes de dispersion entre ces variables et le "prix de vente", en remplissant la colonne "Conclusion", qui n'est qu'une correction de nos attentes.

Grâce à ce processus, j'ai conclu que les variables suivantes peuvent jouer un rôle important dans ce problème :

OverallQual (c'est une variable que je n'aime pas car je ne sais pas comment elle est calculée ; un exercice intéressant serait de prédire "OverallQual" en utilisant toutes les autres variables disponibles).
Année de construction.
TotalBsmtSF.
GrLivArea.
Je me suis retrouvé avec deux variables "bâtiment" ("OverallQual" et "YearBuilt") et deux variables "spatiales" ("TotalBsmtSF" et "GrLivArea"). Cela pourrait surprendre un peu, car cela va à l'encontre de l'adage immobilier selon lequel tout ce qui compte est "l'emplacement, l'emplacement et l'emplacement". Ce processus d'inspection rapide des données peut être un peu difficile pour les variables catégorielles. Par exemple, je m'attendais à ce que la variable "voisins" soit plus pertinente, mais après avoir vérifié les données, j'ai fini par l'exclure. Cela a peut-être quelque chose à voir avec l'utilisation d'un nuage de points au lieu d'une boîte à moustaches, ce qui est préférable pour la visualisation de variables catégorielles. La façon dont nous visualisons les données affecte souvent nos conclusions.

Cependant, l'objectif principal de cet exercice était de réfléchir à nos données et à nos attentes, donc je pense que nous avons atteint notre objectif. Il est maintenant temps de « parler moins et faire plus ». Secouons-le !

2. Premièrement: analyser le "prix de vente"
"prix de vente" est la raison pour laquelle nous poursuivons. Comme si nous allions à une fête. Nous avons toujours une raison d'être là. Généralement, les femmes en sont la cause. (Avertissement : pour les hommes, danser ou boire, selon votre préférence.)

En utilisant la métaphore d'une femme, inventons une petite histoire, "Comment nous nous sommes rencontrés".

Tout a commencé lors de notre soirée Cagle lorsque nous cherchions un rendez-vous dansant. Après avoir regardé autour de la piste de danse pendant un moment, nous avons vu une fille portant des chaussures de danse près du bar. C'est son signe pour danser. Nous passons beaucoup de temps à faire de la modélisation prédictive et à participer à des compétitions d'analyse, donc parler aux filles n'est pas l'un de nos super pouvoirs. Malgré tout, nous avons essayé:

"Salut, je suis Cagli !" Et vous ? "SalePrice" ? Quel beau nom ! Vous connaissez "SalePrice", pouvez-vous me donner quelques données sur vous ? Je viens de développer un modèle pour calculer deux La probabilité d'un individu être dans une relation avec succès. Je veux nous l'appliquer !"

s'écarter de la distribution normale.

Il y a une nette asymétrie positive.

Affiche des pointes.

 

Exploration complète des données avec Python | Kaggle icon-default.png?t=N5F7https://www.kaggle.com/code/pmarcelino/comprehensive-data-exploration-with-python#5.-Getting-hard-core

Guess you like

Origin blog.csdn.net/m0_63309778/article/details/131232787