Réfléchissez d'abord au processus d'analyse des données. La première étape consiste à obtenir des données, donc le contenu de cette section est d'obtenir des données et des opérations de base sur les données.

1. Importation de données

1.1 Importer un fichier .xlsx

Pour importer un fichier Excel avec un suffixe .xlsx, vous pouvez utiliser la méthode pd.read_excel (path)

Le résultat:

Les données df_review contiennent deux champs, listing_id et date

Le paramètre indispensable lors de la lecture des données est le chemin d'accès. Le chemin d'accès au fichier est écrit différemment sous différents systèmes d'exploitation. En règle générale, il existe deux façons d'écrire le chemin d'accès sous le système d'exploitation Windows:

Barre oblique inverse "\": cliquez avec le bouton droit sur ce fichier, sélectionnez les propriétés, vous pouvez voir où il se trouve, la valeur par défaut est d'utiliser \ pour indiquer, car la barre oblique inverse "\" est définie comme un symbole d'échappement en Python, alors écrivez Lorsque vous devez ajouter un caractère d'échappement r à l'avant du chemin, r "D: \ Personal \ data \ reviews.xlsx"
Slash "/": Pas besoin d'ajouter r, tous écrits avec /: "D: /personal/data/reviews.xlsx" Deux façons de voir les habitudes personnelles.

paramètre nom_feuille

Pour les fichiers .xlsx, il peut y avoir plusieurs tables de feuilles, vous pouvez donc définir le paramètre sheet_name pour spécifier la table de feuilles importée, vous pouvez transmettre le nom de la table de feuilles, vous pouvez également spécifier l'ordre dans l'ordre croissant de 0, ne pas spécifier la table de feuilles La valeur par défaut est la première feuille.

1.2 Importer un fichier .csv

Importez un fichier au format .csv à l'aide de la méthode pd.read_csv (chemin)

Le résultat:

Les données df_list comprennent principalement: ID du propriétaire, nom du propriétaire, latitude et longitude, type de chambre, prix, nombre minimum de jours disponibles pour le loyer, nombre d'avis, heure de la dernière révision, pourcentage des évaluations mensuelles, maisons louables, durée annuelle louable et autres champs

Spécifiez le format d'encodage

Un point de connaissance important pour les fichiers .csv est le format d'encodage. Surtout lors de l'importation de fichiers, vous devez comprendre le format d'encodage du fichier pour éviter les caractères tronqués. Alors, comment savoir quel type d'encodage est le fichier? Ouvrez-le avec le logiciel notepad ++ et le format d'encodage du fichier s'affichera dans le coin inférieur droit. Par exemple, le fichier listings.csv qui vient d'être importé est un encodage utf-8. Lors de l'écriture de l'encodage, le cas est courant et utf-8 peut également être écrit en utf8.

Vous pouvez utiliser le paramètre d'encodage pour définir le format d'encodage. Le format d'encodage par défaut de Python est utf-8.

Problème brouillé chinois

Pour le problème déformé causé par l'occurrence de chinois dans le chemin du fichier, vous pouvez ajouter le moteur de paramètres pour l'éviter.

Le résultat:

image.png

Spécifiez l'index de ligne

Si vous ne spécifiez pas d'index de ligne, une colonne commençant à 0 est utilisée comme index de ligne, ou vous pouvez spécifier la colonne id comme index de ligne, en passant le paramètre index_col

Résultat: comme vous pouvez le voir, la colonne id devient la colonne d'index de ligne.

Spécifiez l'index de colonne

Par défaut, la première ligne est l'index de colonne, qui peut également être spécifié. Utilisez le paramètre d'en-tête, header = 0, pour spécifier l'index de colonne de la première ligne.

Le résultat:

Spécifiez la colonne d'importation

Parfois, nous voulons importer uniquement les colonnes spécifiées, puis passer le paramètre usecols

Le résultat:

2. Opérations de base sur les données

Après avoir importé les données, vous devez avoir une compréhension générale des données, telles que l'ensemble de données comporte plusieurs lignes et colonnes, quel est le type de données de chaque champ et s'il existe des valeurs nulles.

Aperçu

Vous n'avez pas à manquer complètement de données, regardez simplement les premières lignes et utilisez la méthode head pour obtenir les 5 premières lignes de données

Le résultat:

Vous pouvez également passer des nombres dans head (), comme la prévisualisation des 10 premières lignes de données

Afficher les dimensions des données

L'ensemble de données comporte plusieurs lignes et colonnes, utilisant la forme

Résultat: vous pouvez voir que l'ensemble de données df_list a 28452 lignes et 16 colonnes

Afficher le type de données

Utilisez dtypes pour afficher les types de données de tous les champs de l'ensemble de données

Le résultat:

Vous pouvez également afficher séparément le type de données d'un champ

Le résultat:

Si vous voulez apprendre Python ou apprenez Python, il existe de nombreux didacticiels Python, mais est-ce le dernier? Peut-être que vous avez appris quelque chose que les gens auraient appris il y a deux ans, et ici je partage une vague des derniers tutoriels Python pour 2020. Comment l'obtenir, vous pouvez l'obtenir gratuitement en éditant les "Informations" de la lettre privée!

Utilisez un cas complet pour expliquer l'ensemble du processus et les connaissances de base de l'analyse de données Python

1. Importation de données

1.1 Importer un fichier .xlsx

paramètre nom_feuille

1.2 Importer un fichier .csv

Spécifiez le format d'encodage

Problème brouillé chinois

Spécifiez l'index de ligne

Spécifiez l'index de colonne

Spécifiez la colonne d'importation

2. Opérations de base sur les données

Aperçu

Afficher les dimensions des données

Afficher le type de données

Je suppose que tu aimes