Réfléchissez d'abord au processus d'analyse des données. La première étape consiste à obtenir des données, donc le contenu de cette section est d'obtenir des données et des opérations de base sur les données.
1. Importation de données
1.1 Importer un fichier .xlsx
Pour importer un fichier Excel avec un suffixe .xlsx, vous pouvez utiliser la méthode pd.read_excel (path)
Le résultat:
Les données df_review contiennent deux champs, listing_id et date
Le paramètre indispensable lors de la lecture des données est le chemin d'accès. Le chemin d'accès au fichier est écrit différemment sous différents systèmes d'exploitation. En règle générale, il existe deux façons d'écrire le chemin d'accès sous le système d'exploitation Windows:
- Barre oblique inverse "\": cliquez avec le bouton droit sur ce fichier, sélectionnez les propriétés, vous pouvez voir où il se trouve, la valeur par défaut est d'utiliser \ pour indiquer, car la barre oblique inverse "\" est définie comme un symbole d'échappement en Python, alors écrivez Lorsque vous devez ajouter un caractère d'échappement r à l'avant du chemin, r "D: \ Personal \ data \ reviews.xlsx"
- Slash "/": Pas besoin d'ajouter r, tous écrits avec /: "D: /personal/data/reviews.xlsx" Deux façons de voir les habitudes personnelles.
paramètre nom_feuille
Pour les fichiers .xlsx, il peut y avoir plusieurs tables de feuilles, vous pouvez donc définir le paramètre sheet_name pour spécifier la table de feuilles importée, vous pouvez transmettre le nom de la table de feuilles, vous pouvez également spécifier l'ordre dans l'ordre croissant de 0, ne pas spécifier la table de feuilles La valeur par défaut est la première feuille.
1.2 Importer un fichier .csv
Importez un fichier au format .csv à l'aide de la méthode pd.read_csv (chemin)
Le résultat:
Les données df_list comprennent principalement: ID du propriétaire, nom du propriétaire, latitude et longitude, type de chambre, prix, nombre minimum de jours disponibles pour le loyer, nombre d'avis, heure de la dernière révision, pourcentage des évaluations mensuelles, maisons louables, durée annuelle louable et autres champs
Spécifiez le format d'encodage
Un point de connaissance important pour les fichiers .csv est le format d'encodage. Surtout lors de l'importation de fichiers, vous devez comprendre le format d'encodage du fichier pour éviter les caractères tronqués. Alors, comment savoir quel type d'encodage est le fichier? Ouvrez-le avec le logiciel notepad ++ et le format d'encodage du fichier s'affichera dans le coin inférieur droit. Par exemple, le fichier listings.csv qui vient d'être importé est un encodage utf-8. Lors de l'écriture de l'encodage, le cas est courant et utf-8 peut également être écrit en utf8.
Vous pouvez utiliser le paramètre d'encodage pour définir le format d'encodage. Le format d'encodage par défaut de Python est utf-8.
Problème brouillé chinois
Pour le problème déformé causé par l'occurrence de chinois dans le chemin du fichier, vous pouvez ajouter le moteur de paramètres pour l'éviter.
Le résultat:
image.png
Spécifiez l'index de ligne
Si vous ne spécifiez pas d'index de ligne, une colonne commençant à 0 est utilisée comme index de ligne, ou vous pouvez spécifier la colonne id comme index de ligne, en passant le paramètre index_col
Résultat: comme vous pouvez le voir, la colonne id devient la colonne d'index de ligne.
Spécifiez l'index de colonne
Par défaut, la première ligne est l'index de colonne, qui peut également être spécifié. Utilisez le paramètre d'en-tête, header = 0, pour spécifier l'index de colonne de la première ligne.
Le résultat:
Spécifiez la colonne d'importation
Parfois, nous voulons importer uniquement les colonnes spécifiées, puis passer le paramètre usecols
Le résultat:
2. Opérations de base sur les données
Après avoir importé les données, vous devez avoir une compréhension générale des données, telles que l'ensemble de données comporte plusieurs lignes et colonnes, quel est le type de données de chaque champ et s'il existe des valeurs nulles.
Aperçu
Vous n'avez pas à manquer complètement de données, regardez simplement les premières lignes et utilisez la méthode head pour obtenir les 5 premières lignes de données
Le résultat:
Vous pouvez également passer des nombres dans head (), comme la prévisualisation des 10 premières lignes de données
Afficher les dimensions des données
L'ensemble de données comporte plusieurs lignes et colonnes, utilisant la forme
Résultat: vous pouvez voir que l'ensemble de données df_list a 28452 lignes et 16 colonnes
Afficher le type de données
Utilisez dtypes pour afficher les types de données de tous les champs de l'ensemble de données
Le résultat:
Vous pouvez également afficher séparément le type de données d'un champ
Le résultat:
Si vous voulez apprendre Python ou apprenez Python, il existe de nombreux didacticiels Python, mais est-ce le dernier? Peut-être que vous avez appris quelque chose que les gens auraient appris il y a deux ans, et ici je partage une vague des derniers tutoriels Python pour 2020. Comment l'obtenir, vous pouvez l'obtenir gratuitement en éditant les "Informations" de la lettre privée!