Il existe de nombreuses façons pour Python de traiter les fichiers de données. Les types de fichiers qui peuvent être exploités comprennent les fichiers texte (csv, txt, json, etc.), les fichiers Excel, les fichiers de base de données, l'api et d'autres fichiers de données.
Voici quelques façons dont python peut lire et écrire des fichiers de données.
1. lire 、 readline 、 readlines
-
read (): lire le contenu complet du fichier à la fois. Il est recommandé d'utiliser la méthode de lecture (taille), plus la taille est grande, plus le temps de fonctionnement est long
-
readline (): lit une ligne à la fois. Utilisé en cas de mémoire insuffisante, généralement non utilisé
-
readlines (): lisez tout le contenu du fichier à la fois, et revenez à la liste par ligne pour faciliter notre traversée
2. Module intégré csv
Python possède un module csv intégré pour lire et écrire des fichiers csv. Csv est un fichier délimité par des virgules et est l'un des formats de stockage de données les plus courants en science des données. Le module csv peut facilement terminer les opérations de lecture et d'écriture de diverses données de volume. Bien entendu, la grande quantité de données nécessite une optimisation au niveau du code.
-
fichier de lecture du module csv
# 读取csv文件
import csv
with open('test.csv','r') as myFile:
lines=csv.reader(myFile)
for line in lines:
print (line)
-
fichier d'écriture du module csv
import csv
with open('test.csv','w+') as myFile:
myWriter=csv.writer(myFile)
# writerrow一行一行写入
myWriter.writerow([7,8,9])
myWriter.writerow([8,'h','f'])
# writerow多行写入
myList=[[1,2,3],[4,5,6]]
myWriter.writerows(myList)
3. bibliothèque numpy
-
méthode loadtxt
loadtxt est utilisé pour lire des fichiers texte (y compris txt, csv, etc.) et des fichiers compressés au format .gz ou .bz2, à condition que chaque ligne de données de fichier ait le même nombre de valeurs.
import numpy as np
# loadtxt()中的dtype参数默认设置为float
# 这里设置为str字符串便于显示
np.loadtxt('test.csv',dtype=str)
# out:array(['1,2,3', '4,5,6', '7,8,9'], dtype='<U5')
-
méthode de chargement
numpy dédié à la lecture de la charge .npy
, .npz
ou le pickled
fichier persistant.
import numpy as np
# 先生成npy文件
np.save('test.npy', np.array([[1, 2, 3], [4, 5, 6]]))
# 使用load加载npy文件
np.load('test.npy')
'''
out:array([[1, 2, 3],
[4, 5, 6]])
'''
-
méthode fromfile
La méthode fromfile peut lire des données texte simples ou des données binaires, et les données proviennent des données binaires enregistrées par la méthode tofile. Lors de la lecture des données, l'utilisateur doit spécifier le type d'élément et modifier la forme du tableau de manière appropriée.
import numpy as np
x = np.arange(9).reshape(3,3)
x.tofile('test.bin')
np.fromfile('test.bin',dtype=np.int)
# out:array([0, 1, 2, 3, 4, 5, 6, 7, 8])
4. La bibliothèque des pandas
Pandas est l'une des bibliothèques d'analyse les plus utilisées pour le traitement des données. Elle peut lire des fichiers de données dans différents formats et généralement produire des formats de trame de données. Tels que: txt, csv, excel, json, presse-papiers, base de données, html, hdf, parquet, fichiers marinés, sas, stata, etc.
-
La méthode read_csv La méthode read_csv est utilisée pour lire le fichier au format csv et sortir le format de trame de données.
import pandas as pd
pd.read_csv('test.csv')
-
méthode read_excel
Lire des fichiers Excel, y compris le format xlsx, xls, xlsm
import pandas as pd
pd.read_excel('test.xlsx')
-
méthode read_table
Lire n'importe quel fichier texte en contrôlant le paramètre sep (séparateur)
-
méthode read_json
Lire le fichier au format json
df = pd.DataFrame([['a', 'b'], ['c', 'd']],index=['row 1', 'row 2'],columns=['col 1', 'col 2'])
j = df.to_json(orient='split')
pd.read_json(j,orient='split')
-
méthode read_html
Lire le tableau html
-
méthode read_clipboard
Lire le contenu du presse-papiers
-
méthode read_pickle
Lire les fichiers persistants bloqués
-
méthode read_sql
Lisez les données de la base de données, après vous être connecté à la base de données, passez simplement l'instruction sql
-
méthode read_dhf
Lire des fichiers hdf5, adapté à la lecture de fichiers volumineux
-
méthode read_parquet
Lire le dossier parquet
-
méthode read_sas
Lire le fichier sas
-
méthode read_stata
Lire le fichier stata
-
méthode read_gbq
Lire les données de Google Bigquery
Site Web d'apprentissage des pandas: https://pandas.pydata.org/
5. Lire et écrire des fichiers Excel
Il existe de nombreuses bibliothèques Python pour lire et écrire des fichiers Excel. En plus des pandas susmentionnés, il y a xlrd, xlwt, openpyxl, xlwings et ainsi de suite.
Modules principaux:
-
bibliothèque xlrd
Lire les données d'Excel, prendre en charge xls, xlsx
-
bibliothèque xlwt
Modifiez Excel, ne supportez pas la modification du format xlsx
-
bibliothèque xlutils
Dans xlw et xlrd, modifiez un fichier existant
-
openpyxl
Lire et éditer principalement Excel au format xlsx
-
xlwings
Lire, écrire et modifier des formats tels que les fichiers au format xlsx, xls et xlsm
-
xlsxwriter
Utilisé pour générer des tableaux Excel, insérer des données, insérer des icônes et d'autres opérations de tableau, ne prend pas en charge la lecture
-
API Microsoft Excel
Besoin d'installer pywin32, de communiquer directement avec le processus Excel, peut faire tout ce qui peut être fait dans Excel, mais c'est lent
6. Exploitez la base de données
Python prend presque en charge l'interaction de toutes les bases de données. Après vous être connecté à la base de données, vous pouvez utiliser l'instruction SQL pour ajouter, supprimer, modifier et vérifier.
Modules principaux:
-
pymysql
Utilisé pour interagir avec la base de données mysql
-
sqlalchemy
Utilisé pour interagir avec la base de données mysql
-
cx_Oracle
Utilisé pour interagir avec la base de données Oracle
-
sqlite3
Bibliothèque intégrée pour l'interaction avec la base de données sqlite
-
pymssql
Utilisé pour interagir avec la base de données du serveur SQL
-
pymongo
Utilisé pour interagir avec la base de données non relationnelle mongodb
-
redis、pyredis
Utilisé pour interagir avec la base de données non relationnelle redis