Répertoire d'articles
introduction
Mon ami devra peut-être demander, qu'est-ce que c'est? Pd.read_csv ne fonctionne-t-il pas? Les résultats sont toujours renvoyés à DataFrame. Le résultat est en effet le même, mais le temps de chargement des données varie beaucoup. Cela peut être facilement vu à partir du petit exemple de la comparaison suivante:
1.pd.read_parquet
pandas.read_parquet(path, engine='auto', columns=None, use_nullable_dtypes=False, **kwargs)
la description
Chargez un objet parquet à partir du chemin du fichier et renvoyez un DataFrame
paramètre
chemin: str, objet de chemin ou
chemin de fichier d' objet de type fichier
engine: {'auto', 'pyarrow', 'fastparquet'}, default'auto '
Si c'est "auto", utilisez l'option io.parquet.engine.
Le comportement par défaut de io.parquet.engine est d'essayer d'utiliser "pyarrow" et de revenir à "fastparquet" si "pyarrow" n'est pas disponible.
colonnes: liste, par défaut = Aucun
Si ce n'est pas Aucun, ne lisez ces colonnes qu'à partir du fichier
use_nullable_: dtypesbool, valeur par défaut False
revenir
Trame de données