Py's pandas: explicación de cada parámetro en la función read_excel () de pandas y explicación del uso de la función
Tabla de contenido
función de realización de función read_excel ()
Cómo usar la función read_excel ()
3. Se infiere el tipo de columna, pero se puede especificar explícitamente
Descripción detallada de cada parámetro en la función ead_excel ()
Explicación de cada parámetro en la función read_excel () de pandas y explicación del uso de la función
función de realización de función read_excel ()
Lea un archivo de Excel en una carpeta de datos de pandas. Admite extensiones de archivo xls, xlsx, xlsm, xlsb, odf, ods y odt leídas desde el sistema de archivos local o la URL. Admite la opción de leer una sola hoja de trabajo o una lista de hojas de trabajo.
Cómo usar la función read_excel ()
1. Puede usar el nombre del archivo como una cadena o abrir el objeto de archivo para leer el archivo:
pd.read_excel('tmp.xlsx', index_col=0)
Name Value
0 string1 1
1 string2 2
2 #Comment 3
pd.read_excel(open('tmp.xlsx', 'rb'),
sheet_name='Sheet3')
Unnamed: 0 Name Value
0 0 string1 1
1 1 string2 2
2 2 #Comment 3
2. El índice y el encabezado se pueden especificar mediante index_col y los parámetros del encabezado
pd.read_excel('tmp.xlsx', index_col=None, header=None)
0 1 2
0 NaN Name Value
1 0.0 string1 1
2 1.0 string2 2
3 2.0 #Comment 3
3. Se infiere el tipo de columna, pero se puede especificar explícitamente
pd.read_excel('tmp.xlsx', index_col=0,
dtype={'Name': str, 'Value': float})
Name Value
0 string1 1.0
1 string2 2.0
2 #Comment 3.0
4. Los valores True, False y NA y miles de separadores tienen valores predeterminados, pero también pueden especificarse explícitamente. Proporcione el valor que desee como una cadena o una lista de cadenas.
pd.read_excel('tmp.xlsx', index_col=0,
na_values=['string1', 'string2'])
Name Value
0 NaN 1
1 NaN 2
2 #Comment 3
Descripción detallada de cada parámetro en la función ead_excel ()
API oficial : pandas.read_excel
def read_excel Encontrado en: pandas.io.excel._base
@deprecate_nonkeyword_arguments (allowed_args = 2, version = "2.0")
@Appender (_read_excel_doc)
def read_excel ( io, sheet_name = 0, header = 0, names = None, index_col = None, usecols = None, squeeze = False, dtype = None , engine = None, converters = None, true_values = None, false_values = None, skiprows = None, nrows = None, na_values = None, keep_default_na = True, na_filter = True, verbose = False, parse_dates = False, date_parser = None, miles = Ninguno, comentario = Ninguno, skipfooter = 0, convert_float = True, mangle_dupe_cols = True):
yo | str, bytes, ExcelFile, xlrd.Book, objeto de ruta o objeto similar a un archivo Cualquier ruta de cadena válida es aceptable. La cadena podría ser una URL. Los esquemas de URL válidos incluyen http, ftp, s3 y file. Para las URL de archivos, se espera un host. Un archivo local podría ser: file: //localhost/path/to/table.xlsx. Si desea pasar un objeto de ruta, pandas acepta cualquier os.PathLike. Por objeto similar a un archivo, nos referimos a objetos con un método read (), como un controlador de archivos (por ejemplo, a través de la función de apertura incorporada) o StringIO. |
str, bytes, ExcelFile, xlrd.Book, objeto de ruta o objeto similar a un archivo Cualquier ruta de cadena válida. La cadena puede ser una URL. Los esquemas de URL válidos incluyen http, ftp, s3 y file. Para las URL de archivos, se requiere un host. El archivo local puede ser: file: //localhost/path/to/table.xlsx. Si desea pasar un objeto de ruta, los pandas aceptarán cualquier cosa similar a os. Ruta. Con objetos similares a archivos, usamos el método read () para referirnos a objetos, como controladores de archivos (por ejemplo, a través de la función de apertura incorporada) o StringIO. |
sheet_name | str, int, list o None, predeterminado 0 Las cadenas se utilizan para los nombres de las hojas. Los enteros se utilizan en posiciones de hoja indexadas a cero. Las listas de cadenas / números enteros se utilizan para solicitar varias hojas. Especifique Ninguno para obtener todas las hojas. Casos disponibles:
|
El nombre de la tabla usa la cadena predeterminada de 0, como str, int, list o None. Los números enteros se utilizan para posiciones de hoja de cálculo con índice cero. Las listas de cadenas / enteros se utilizan para solicitar varias tablas. Especifique Ninguno para obtener todas las tablas. Disponibilidad: El valor predeterminado es 0: La primera hoja se usa como DataFrame1: La segunda hoja se usa como DataFrame "Hoja1": Cargue la tabla llamada "Sheet1" [0,1, "Sheet5"]: Cargue primero, segundo y nombre La tabla "Sheet5" se utiliza como el dictado de DataFrameNone: todas las tablas. |
encabezamiento | int, lista de int, predeterminado 0 Fila (indexada con 0) que se usará para las etiquetas de columna del DataFrame analizado. Si se pasa una lista de números enteros, esas posiciones de fila se combinarán en un archivo |
Fila (índice 0), la etiqueta de columna para el formato de datos analizados. Si se pasa una lista de enteros, estas posiciones de fila se fusionarán en un índice múltiple. Si no hay título, se utiliza Ninguno. |
nombres | tipo matriz, predeterminado Ninguno Lista de nombres de columna para usar. Si el archivo no contiene una fila de encabezado, debe pasar explícitamente header = None. |
Una lista de nombres de columnas que se utilizarán. Si el archivo no contiene una línea de encabezado, entonces header = None debe pasarse explícitamente. Cuando se usa el parámetro de nombres, es similar a cambiar el nombre. Recuerde hacer coincidir todos los datos originales: es decir, ni más ni menos, y más o menos arrojará ValueError . |
index_col | int, lista de int, predeterminado Ninguno Columna (indexada en 0) para usar como etiquetas de fila del DataFrame. Pase Ninguno si no existe tal columna. Si se pasa una lista, esas columnas se combinarán en un |
La columna (índice 0) se utiliza como etiqueta de fila del formato de datos. Si no existe tal columna, pase Ninguno. Si se pasa una lista, estas columnas se fusionarán en un índice múltiple. Si se selecciona un subconjunto de datos usando usecols, index_col se basa en ese subconjunto. |
usecols | int, str, list-like o invocable predeterminado Ninguno
Returns a subset of the columns according to behavior above.
|
usecols=[1,2,7,8,14] |
squeeze | bool, default False If the parsed data only contains one column then return a Series. |
如果解析的数据只包含一列,则返回一个序列。 |
dtype | Type name or dict of column -> type, default None Data type for data or columns. E.g. {‘a’: np.float64, ‘b’: np.int32} Use object to preserve data as stored in Excel and not interpret dtype. If converters are specified, they will be applied INSTEAD of dtype conversion. |
数据或列的数据类型。例如{a: np。使用object保存存储在Excel中的数据,而不是解释dtype。如果指定了转换器,则将应用它们而不是dtype转换。 |
engine | str, default None If io is not a buffer or path, this must be set to identify io. Supported engines: “xlrd”, “openpyxl”, “odf”, “pyxlsb”, default “xlrd”. Engine compatibility : - “xlrd” supports most old/new Excel file formats. - “openpyxl” supports newer Excel file formats. - “odf” supports OpenDocument file formats (.odf, .ods, .odt). - “pyxlsb” supports Binary Excel files. |
如果io不是缓冲区或路径,则必须将其设置为识别io。支持的引擎:“xlrd”、“openpyxl”、“odf”、“pyxlsb”,默认为“xlrd”。引擎兼容性:-“xlrd”支持大多数新旧Excel文件格式。- " openpyxl "支持较新的Excel文件格式。-“odf”支持OpenDocument文件格式(。odf。ods, .odt)。- " pyxlsb "支持二进制Excel文件。 |
converters | dict, default None Dict of functions for converting values in certain columns. Keys can either be integers or column labels, values are functions that take one input argument, the Excel cell content, and return the transformed content. |
用于转换某些列中的值的函数的字典。键可以是整数也可以是列标签,值是接受一个输入参数Excel单元格内容并返回转换后内容的函数。 |
true_values | list, default None Values to consider as True. |
true_values |
false_values | list, default None Values to consider as False. |
false_values |
skiprows | list-like Rows to skip at the beginning (0-indexed). |
开头要跳过的行(0索引)。 |
nrows | int, default None Number of rows to parse. New in version 0.23.0. |
要解析的行数。 新版本0.23.0。 |
na_values | scalar, str, list-like, or dict, default None Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘<NA>’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’. |
附加的弦可以像NA/NaN那样识别。如果命中注定,具体的评估。例如:“‘N/A’、‘N/A’、‘N/A’、‘NA’、‘-1’。”# IND”、“录音。QNAN ', ' -NaN ', ' -NaN ', ' 1。# IND”、“1。# QNAN NA系”、“< >”、“N / A”、“NA”、“空”、“南”、“N / A‘南’,‘空’。 |
keep_default_na | bool, default True Whether or not to include the default NaN values when parsing the data. Depending on whether na_values is passed in, the behavior is as follows:
Note that if na_filter is passed in as False, the keep_default_na and na_values parameters will be ignored. |
解析数据时是否包含默认的NaN值。根据是否传入na_values,行为如下: 如果keep_default_na为真,并且指定了na_values,那么na_values将附加到用于解析的缺省NaN值中。 如果keep_default_na为真,并且没有指定na_values,则只使用默认的NaN值进行解析。 如果keep_default_na为False,并且指定了na_values,则仅使用指定na_values的NaN值进行解析。 如果keep_default_na为False,并且没有指定na_values,则不会将任何字符串解析为NaN。 注意,如果将na_filter作为False传入,则keep_default_na和na_values参数将被忽略。 |
na_filter | bool, default True Detect missing value markers (empty strings and the value of na_values). In data without any NAs, passing na_filter=False can improve the performance of reading a large file. |
检测缺失的值标记(空字符串和na_values的值)。在没有NAs的数据中,传递na_filter=False可以提高读取大文件的性能。 |
verbose | bool, default False Indicate number of NA values placed in non-numeric columns. |
指示放置在非数字列中的NA值的数目。 |
parse_dates | bool, list-like, or dict, default False The behavior is as follows:
If a column or index contains an unparseable date, the entire column or index will be returned unaltered as an object data type. If you don`t want to parse some cells as date just change their type in Excel to “Text”. For non-standard datetime parsing, use Note: A fast-path exists for iso8601-formatted dates. |
其行为如下:
如果列或索引包含不可解析的日期,则整个列或索引将作为对象数据类型不变地返回。如果你不想把一些单元格解析为date,那就把它们在Excel中的类型改为Text。对于非标准的日期时间解析,在pd.read_excel后面使用pd.to_datetime。 注意:有一个用于iso8601格式的日期的快速路径。 |
date_parser | function, optional Function to use for converting a sequence of string columns to an array of datetime instances. The default uses |
该函数,用于将字符串列序列转换为日期时间实例数组。默认使用dateutil.parser。解析器执行转换。熊猫将尝试以三种不同的方式调用date_parser,如果出现异常,则继续调用:1)传递一个或多个数组(由parse_date定义)作为参数;2)将parse_date定义的列中的字符串值连接到一个数组中并传递它;使用一个或多个字符串(对应于parse_date定义的列)作为参数,对每一行调用date_parser一次。 |
thousands | str, default None Thousands separator for parsing string columns to numeric. Note that this parameter is only necessary for columns stored as TEXT in Excel, any numeric columns will automatically be parsed, regardless of display format. |
数以千计的分隔符用于将字符串列解析为数字。请注意,此参数仅对存储为文本的列在Excel中是必要的,任何数值列都将自动解析,无论显示格式如何。
|
comment | str, default None Comments out remainder of line. Pass a character or characters to this argument to indicate comments in the input file. Any data between the comment string and the end of the current line is ignored. |
注释掉行中的余数。向此参数传递一个或多个字符,以指示输入文件中的注释。注释字符串和当前行结束之间的任何数据都将被忽略。 |
skipfooter | int, default 0 Rows at the end to skip (0-indexed). |
末尾要跳过的行(0索引)。 |
convert_float |
bool, default True Convert integral floats to int (i.e., 1.0 –> 1). If False, all numeric data will be read in as floats: Excel stores all numbers as floats internally. |
将整型浮点数转换为整型浮点数(例如,1.0 - > - 1),如果为False,则所有数值数据将以浮点数的形式读入:Excel在内部将所有数字存储为浮点数。 |
mangle_dupe_cols | bool, default True Duplicate columns will be specified as ‘X’, ‘X.1’, …’X.N’, rather than ‘X’…’X’. Passing in False will cause data to be overwritten if there are duplicate names in the columns. |
重复列将被指定为' X ', ' X。1 ',…”X。是N,而不是X,是X。如果列中有重复的名称,传入False将导致数据被覆盖。 |
Returns | DataFrame or dict of DataFrames DataFrame from the passed in Excel file. See notes in sheet_name argument for more information on when a dict of DataFrames is returned. |
DataFrame从传递的Excel文件。请参阅sheet_name参数中的注释,以获得关于何时返回数据变量的更多信息。 |