Python lire et écrire des fichiers Excel et autres fichiers de données

Il existe de nombreuses façons pour Python de traiter les fichiers de données. Les types de fichiers qui peuvent être exploités comprennent les fichiers texte (csv, txt, json, etc.), les fichiers Excel, les fichiers de base de données, l'api et d'autres fichiers de données.

Voici quelques façons dont python peut lire et écrire des fichiers de données.

1. lire 、 readline 、 readlines

  • read (): lire le contenu complet du fichier à la fois. Il est recommandé d'utiliser la méthode de lecture (taille), plus la taille est grande, plus le temps de fonctionnement est long

  • readline (): lit une ligne à la fois. Utilisé en cas de mémoire insuffisante, généralement non utilisé

  • readlines (): lisez tout le contenu du fichier à la fois, et revenez à la liste par ligne pour faciliter notre traversée

2. Module intégré csv

Python possède un module csv intégré pour lire et écrire des fichiers csv. Csv est un fichier délimité par des virgules et est l'un des formats de stockage de données les plus courants en science des données. Le module csv peut facilement terminer les opérations de lecture et d'écriture de diverses données de volume. Bien entendu, la grande quantité de données nécessite une optimisation au niveau du code.

  • fichier de lecture du module csv

# 读取csv文件
import csv
with open('test.csv','r') as myFile:
    lines=csv.reader(myFile)
    for line in lines:
        print (line)
  • fichier d'écriture du module csv

import csv
with open('test.csv','w+') as myFile:
    myWriter=csv.writer(myFile)
    # writerrow一行一行写入
    myWriter.writerow([7,8,9])
    myWriter.writerow([8,'h','f'])
    # writerow多行写入
    myList=[[1,2,3],[4,5,6]]
    myWriter.writerows(myList)

 

3. bibliothèque numpy

  • méthode loadtxt

loadtxt est utilisé pour lire des fichiers texte (y compris txt, csv, etc.) et des fichiers compressés au format .gz ou .bz2, à condition que chaque ligne de données de fichier ait le même nombre de valeurs.

import numpy as np
# loadtxt()中的dtype参数默认设置为float
# 这里设置为str字符串便于显示
np.loadtxt('test.csv',dtype=str)
# out:array(['1,2,3', '4,5,6', '7,8,9'], dtype='<U5')
  • méthode de chargement

numpy dédié à la lecture de la charge .npy.npz ou le pickledfichier persistant.

import numpy as np
# 先生成npy文件
np.save('test.npy', np.array([[1, 2, 3], [4, 5, 6]]))
# 使用load加载npy文件
np.load('test.npy')
'''
out:array([[1, 2, 3],
       [4, 5, 6]])
'''
  • méthode fromfile

La méthode fromfile peut lire des données texte simples ou des données binaires, et les données proviennent des données binaires enregistrées par la méthode tofile. Lors de la lecture des données, l'utilisateur doit spécifier le type d'élément et modifier la forme du tableau de manière appropriée.

import numpy as np
x = np.arange(9).reshape(3,3)
x.tofile('test.bin')
np.fromfile('test.bin',dtype=np.int)
# out:array([0, 1, 2, 3, 4, 5, 6, 7, 8])

 

4. La bibliothèque des pandas

Pandas est l'une des bibliothèques d'analyse les plus utilisées pour le traitement des données. Elle peut lire des fichiers de données dans différents formats et généralement produire des formats de trame de données. Tels que: txt, csv, excel, json, presse-papiers, base de données, html, hdf, parquet, fichiers marinés, sas, stata, etc.

  • La méthode read_csv La méthode read_csv est utilisée pour lire le fichier au format csv et sortir le format de trame de données.

import pandas as pd
pd.read_csv('test.csv')
  • méthode read_excel

Lire des fichiers Excel, y compris le format xlsx, xls, xlsm

import pandas as pd
pd.read_excel('test.xlsx')
  • méthode read_table

Lire n'importe quel fichier texte en contrôlant le paramètre sep (séparateur)

  • méthode read_json

Lire le fichier au format json

df = pd.DataFrame([['a', 'b'], ['c', 'd']],index=['row 1', 'row 2'],columns=['col 1', 'col 2'])
j = df.to_json(orient='split')
pd.read_json(j,orient='split')
  • méthode read_html

Lire le tableau html

  • méthode read_clipboard

Lire le contenu du presse-papiers

  • méthode read_pickle

Lire les fichiers persistants bloqués

  • méthode read_sql

Lisez les données de la base de données, après vous être connecté à la base de données, passez simplement l'instruction sql

  • méthode read_dhf

Lire des fichiers hdf5, adapté à la lecture de fichiers volumineux

  • méthode read_parquet

Lire le dossier parquet

  • méthode read_sas

Lire le fichier sas

  • méthode read_stata

Lire le fichier stata

  • méthode read_gbq

Lire les données de Google Bigquery

Site Web d'apprentissage des pandas: https://pandas.pydata.org/

5. Lire et écrire des fichiers Excel

Il existe de nombreuses bibliothèques Python pour lire et écrire des fichiers Excel. En plus des pandas susmentionnés, il y a xlrd, xlwt, openpyxl, xlwings et ainsi de suite.

Modules principaux:

  • bibliothèque xlrd

Lire les données d'Excel, prendre en charge xls, xlsx

  • bibliothèque xlwt

Modifiez Excel, ne supportez pas la modification du format xlsx

  • bibliothèque xlutils

Dans xlw et xlrd, modifiez un fichier existant

  • openpyxl

Lire et éditer principalement Excel au format xlsx

  • xlwings

Lire, écrire et modifier des formats tels que les fichiers au format xlsx, xls et xlsm

  • xlsxwriter

Utilisé pour générer des tableaux Excel, insérer des données, insérer des icônes et d'autres opérations de tableau, ne prend pas en charge la lecture

  • API Microsoft Excel

Besoin d'installer pywin32, de communiquer directement avec le processus Excel, peut faire tout ce qui peut être fait dans Excel, mais c'est lent

6. Exploitez la base de données

Python prend presque en charge l'interaction de toutes les bases de données. Après vous être connecté à la base de données, vous pouvez utiliser l'instruction SQL pour ajouter, supprimer, modifier et vérifier.

Modules principaux:

  • pymysql

Utilisé pour interagir avec la base de données mysql

  • sqlalchemy

Utilisé pour interagir avec la base de données mysql

  • cx_Oracle

Utilisé pour interagir avec la base de données Oracle

  • sqlite3

Bibliothèque intégrée pour l'interaction avec la base de données sqlite

  • pymssql

Utilisé pour interagir avec la base de données du serveur SQL

  • pymongo

Utilisé pour interagir avec la base de données non relationnelle mongodb

  • redis、pyredis

Utilisé pour interagir avec la base de données non relationnelle redis

Publié 117 articles originaux · 69 éloges · 10 000+ vues

Je suppose que tu aimes

Origine blog.csdn.net/zsd0819qwq/article/details/105321881
conseillé
Classement