Tabla de contenido
1.3 Instalar e importar la biblioteca Pandas
2. La estructura de datos central de Pandas
Serie 2.1: matriz de etiquetas unidimensional
2.2 DataFrame: tabla de datos bidimensional
2.2.2 Importar marco de datos desde un archivo CSV
2.3 Objeto de índice: contenedor para etiquetas de filas y columnas
2.3.1 Crear un objeto de índice
2.3.2 Índice de filas e índice de columnas
2.3.3 Indexación y corte utilizando el objeto Index
2.3.4 Propiedades y métodos del objeto Índice
3. Importación y exportación de datos
3.1 Importar datos desde un archivo CSV
3.2 Importar datos desde un archivo Excel
3.3 Importar datos de la base de datos SQL
3.4 Guardar datos en archivos en diferentes formatos
1. Introducción a los pandas
1.1 ¿Qué son los pandas?
Pandas es una biblioteca de Python para manipulación y análisis de datos. Proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar, especialmente adecuadas para procesar datos estructurados. Las dos estructuras de datos principales en Pandas son Series
y DataFrame
.
Serie : una serie es una matriz etiquetada unidimensional, similar a una lista o matriz en Python, pero cada elemento tiene una etiqueta (índice). Esto hace que Series sea muy útil para trabajar con datos de series temporales y otros datos etiquetados.
DataFrame : un DataFrame es una estructura de datos tabulares bidimensional, similar a una tabla de base de datos o una hoja de cálculo de Excel. Contiene varias columnas, cada una de las cuales puede tener un tipo de datos diferente y tiene etiquetas de fila y columna.
La biblioteca Pandas también proporciona muchas herramientas de análisis y manipulación de datos, incluido el filtrado, clasificación, agrupación, agregación, fusión y otras funciones de datos, lo que permite a los usuarios procesar y analizar fácilmente conjuntos de datos a gran escala.
1.2 ¿Por qué utilizar Pandas?
Usar Pandas tiene varias ventajas:
Estructuras de datos : las estructuras de datos de Pandas son flexibles y funcionan con una variedad de tipos y formas de datos, incluidas series de tiempo, datos tabulares, datos multidimensionales y más.
Limpieza de datos : Pandas proporciona potentes funciones de preprocesamiento y limpieza de datos, incluido el manejo de valores faltantes, valores duplicados, valores atípicos, etc.
Análisis de datos : Pandas tiene una gran cantidad de herramientas de análisis de datos, que pueden realizar análisis estadísticos, perspectivas de datos, análisis de correlación, etc., que ayudan a obtener información sobre las características y tendencias de los datos.
Visualización de datos : Pandas se puede combinar con otras bibliotecas de visualización de datos como Matplotlib y Seaborn para crear fácilmente varios gráficos de visualización de datos.
Importación y exportación de datos : Pandas admite la importación de datos de una variedad de fuentes de datos, incluidas bases de datos CSV, Excel, SQL, etc., y también puede exportar datos procesados a diferentes formatos.
Amplio soporte comunitario : Pandas tiene una gran comunidad de usuarios que proporciona amplia documentación, tutoriales y soporte, lo que facilita el aprendizaje y el uso de Pandas.
1.3 Instalar e importar la biblioteca Pandas
Para instalar la biblioteca Pandas, puedes usar pip, el administrador de paquetes de Python. Ejecute el siguiente comando en la línea de comando para instalar Pandas:
pip install pandas
Una vez instalada, puedes importar la biblioteca Pandas en un script de Python o en un entorno interactivo:
import pandas as pd
Por lo general, Pandas se importa por convención y se le cambia el nombre
pd
para facilitar el uso de las funciones y estructuras de datos de Pandas. Después de importar Pandas, puede comenzar a utilizar Pandas para el procesamiento y análisis de datos.
2. La estructura de datos central de Pandas
Serie 2.1: matriz de etiquetas unidimensional
La serie es una estructura de datos similar a una matriz unidimensional. A diferencia de las matrices Numpy, tiene etiquetas (índices) que se pueden usar para identificar y acceder a los datos. La serie consta de dos partes: parte de datos y parte de índice.
2.1.1 Crear serie
import pandas as pd
# 创建一个Series,包含一些整数数据
data = pd.Series([1, 2, 3, 4, 5])
# 输出Series
print(data)
Resultado de salida:
0 1
1 2
2 3
3 4
4 5
dtype: int64
En el ejemplo anterior, la Serie contiene un conjunto de datos enteros y se le asignan automáticamente los índices enteros predeterminados (0, 1, 2, 3, 4).
2.1.2 Índice personalizado
import pandas as pd
# 创建一个Series,指定自定义索引
data = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
# 输出Series
print(data)
Resultado de salida:
a 1
b 2
c 3
d 4
e 5
dtype: int64
En este ejemplo, especificamos índices personalizados para Series y cada índice corresponde a un valor de datos.
2.2 DataFrame: tabla de datos bidimensional
DataFrame es la estructura de datos más utilizada en Pandas, que es similar a los datos tabulares en hojas de cálculo o bases de datos SQL. Un DataFrame consta de filas y columnas, y cada columna puede contener diferentes tipos de datos.
2.2.1 Creando marcos de datos
import pandas as pd
# 创建一个简单的DataFrame,包含姓名和年龄列
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
'年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)
# 输出DataFrame
print(df)
Resultado de salida:
姓名 年龄
0 Alice 25
1 Bob 30
2 Charlie 35
3 David 40
En el ejemplo anterior, hemos creado un DataFrame con columnas de nombre y edad. El tipo de datos de cada columna puede ser diferente.
2.2.2 Importar marco de datos desde un archivo CSV
import pandas as pd
# 从CSV文件导入数据创建DataFrame
df = pd.read_csv('data.csv')
# 输出前几行数据
print(df.head())
Este ejemplo demuestra cómo importar datos desde un archivo CSV y crear un DataFrame. Los datos del archivo CSV se convertirán en un DataFrame.
2.3 Objeto de índice: contenedor para etiquetas de filas y columnas
Los objetos de índice se utilizan en Pandas para identificar contenedores para etiquetas de filas y columnas. Cada DataFrame tiene un índice de fila (etiquetas de fila) y un índice de columna (etiquetas de columna), que son objetos de índice. Los objetos de índice son inmutables, lo que significa que no se puede cambiar su contenido una vez creados.
La siguiente es una explicación detallada y un ejemplo del objeto Índice:
2.3.1 Crear un objeto de índice
Puede pd.Index()
crear objetos de índice usando o directamente en el DataFrame. Aquí hay unos ejemplos:
import pandas as pd
# 使用pd.Index()创建Index对象
index1 = pd.Index(['a', 'b', 'c', 'd'])
# 直接在DataFrame中创建Index对象
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
index2 = df.index
print(index1)
print(index2)
resultado de salida
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['A', 'B', 'C', 'D'], dtype='object')
2.3.2 Índice de filas e índice de columnas
En DataFrame, los objetos Index se utilizan para identificar filas y columnas. El índice de la fila está en la parte superior del DataFrame y el índice de la columna está a la izquierda del DataFrame. Aquí hay un ejemplo:
import pandas as pd
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
# 行索引
row_index = df.index
print("行索引:", row_index)
# 列索引
column_index = df.columns
print("列索引:", column_index)
Resultado de salida:
行索引: Index(['A', 'B', 'C', 'D'], dtype='object')
列索引: Index(['姓名'], dtype='object')
2.3.3 Indexación y corte utilizando el objeto Index
Puede utilizar el objeto Índice para seleccionar filas o columnas específicas en un DataFrame. Aquí hay unos ejemplos:
import pandas as pd
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
# 选择特定行
selected_row = df.loc['B'] # 通过行标签选择
print("选择行:\n", selected_row)
# 选择特定列
selected_column = df['姓名'] # 通过列标签选择
print("选择列:\n", selected_column)
# 使用loc进行切片
sliced_df = df.loc['B':'C'] # 使用行标签进行切片
print("切片行:\n", sliced_df)
Resultado de salida:
选择行:
姓名 Bob
Name: B, dtype: object
选择列:
A Alice
B Bob
C Charlie
D David
Name: 姓名, dtype: object
切片行:
姓名
B Bob
C Charlie
2.3.4 Propiedades y métodos del objeto Índice
El objeto Índice tiene algunos atributos y métodos de uso común, como values
atributos, tolist()
métodos, etc. Aquí hay unos ejemplos:
import pandas as pd
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
row_index = df.index
# 获取Index对象的值
index_values = row_index.values
print("Index对象的值:", index_values)
# 将Index对象转换为列表
index_list = row_index.tolist()
print("Index对象转换为列表:", index_list)
# 检查索引是否包含特定值
contains_value = 'B' in row_index
print("索引包含'B':", contains_value)
Resultado de salida:
Index对象的值: ['A' 'B' 'C' 'D']
Index对象转换为列表: ['A', 'B', 'C', 'D']
索引包含'B': True
Los objetos de índice se utilizan ampliamente en Pandas. Los objetos de índice pueden contener diferentes tipos de datos. Ayudan a identificar y manipular las filas y columnas de DataFrame, lo que hace que el análisis de datos sea más conveniente. Puede comprender mejor la indexación y el etiquetado de datos en Pandas si comprende cómo crear y utilizar objetos Index.
Estos son los conceptos básicos y ejemplos de las estructuras de datos centrales de Pandas. Al utilizar Series, DataFrame e Index, puede procesar y analizar varios conjuntos de datos de manera más flexible.
3. Importación y exportación de datos
Pandas proporciona una gran cantidad de funciones para importar fácilmente datos de diferentes fuentes de datos y guardarlos en archivos en diferentes formatos.
3.1 Importar datos desde un archivo CSV
Para importar datos desde un archivo CSV, puede utilizar pd.read_csv()
funciones. Supongamos que hay un data.csv
archivo CSV llamado , que contiene los siguientes datos:
姓名,年龄
Alice,25
Bob,30
Charlie,35
David,40
Ejemplo de importación de datos:
import pandas as pd
# 从CSV文件导入数据
df = pd.read_csv('data.csv')
# 输出DataFrame
print(df)
3.2 Importar datos desde un archivo Excel
Para importar datos desde un archivo de Excel, puede utilizar pd.read_excel()
funciones. Supongamos que hay un data.xlsx
archivo de Excel llamado que contiene los siguientes datos:
姓名 年龄
Alice 25
Bob 30
Charlie 35
David 40
Ejemplo de importación de datos:
import pandas as pd
# 从Excel文件导入数据
df = pd.read_excel('data.xlsx')
# 输出DataFrame
print(df)
3.3 Importar datos de la base de datos SQL
Para importar datos desde una base de datos SQL, puede utilizar pd.read_sql()
funciones. Primero, debe instalar el controlador de base de datos adecuado (por ejemplo pymysql
, , sqlite3
etc.) y luego establecer una conexión a la base de datos.
Ejemplo de importación de datos (usando la base de datos SQLite):
import pandas as pd
import sqlite3
# 建立SQLite数据库连接
conn = sqlite3.connect('mydatabase.db')
# 从数据库导入数据
query = "SELECT * FROM mytable"
df = pd.read_sql(query, conn)
# 关闭数据库连接
conn.close()
# 输出DataFrame
print(df)
3.4 Guardar datos en archivos en diferentes formatos
Para guardar datos de un DataFrame en un archivo en diferentes formatos, puede usar diferentes to_
funciones como to_csv()
,,, etc., según el tipo de archivo que to_excel()
desee to_sql()
guardar.
3.4.1 Ejemplo de guardar datos en un archivo CSV:
import pandas as pd
# 创建一个DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
'年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)
# 将数据保存到CSV文件
df.to_csv('output.csv', index=False)
3.4.2 Ejemplo de guardar datos en un archivo Excel:
import pandas as pd
# 创建一个DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
'年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)
# 将数据保存到Excel文件
df.to_excel('output.xlsx', index=False)
3.4.3 Ejemplo de guardar datos en una base de datos SQL (usando la base de datos SQLite):
import pandas as pd
import sqlite3
# 创建一个DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
'年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)
# 建立SQLite数据库连接
conn = sqlite3.connect('mydatabase.db')
# 将数据保存到数据库中的新表格
df.to_sql('mytable', conn, if_exists='replace', index=False)
# 关闭数据库连接
conn.close()
En el ejemplo anterior, primero creamos un DataFrame y luego usamos
sqlite3
el módulo para establecermydatabase.db
una conexión al archivo de base de datos SQLite. A continuación, usamosto_sql()
una función para guardar los datos del DataFrame enmytable
una nueva tabla llamada. El parámetroif_exists='replace'
indica que si la tabla ya existe, será reemplazada. Puede seleccionar otras opciones según sea necesario, como'append'
etc.Finalmente, cerramos la conexión de la base de datos para asegurarnos de que los datos se hayan guardado correctamente en la base de datos.
Puede modificar los datos, el nombre de la tabla y otros parámetros relacionados según sea necesario para satisfacer sus necesidades específicas.