[Competente en Python en 100 días] Día 54: Análisis de datos de Python_Conceptos básicos de entrada de Pandas, estructura de datos central Serise, DataFrame, objetos de índice, operaciones de importación y exportación de datos

Tabla de contenido

1. Introducción a los pandas

1.1 ¿Qué son los pandas?

1.2 ¿Por qué utilizar Pandas?

1.3 Instalar e importar la biblioteca Pandas

2. La estructura de datos central de Pandas

Serie 2.1: matriz de etiquetas unidimensional

2.1.1 Crear serie

2.1.2 Índice personalizado

2.2 DataFrame: tabla de datos bidimensional

2.2.1 Creando marcos de datos

2.2.2 Importar marco de datos desde un archivo CSV

2.3 Objeto de índice: contenedor para etiquetas de filas y columnas

2.3.1 Crear un objeto de índice

2.3.2 Índice de filas e índice de columnas

2.3.3 Indexación y corte utilizando el objeto Index

2.3.4 Propiedades y métodos del objeto Índice

3. Importación y exportación de datos

3.1 Importar datos desde un archivo CSV

3.2 Importar datos desde un archivo Excel

3.3 Importar datos de la base de datos SQL

3.4 Guardar datos en archivos en diferentes formatos


1. Introducción a los pandas

1.1 ¿Qué son los pandas?

Pandas es una biblioteca de Python para manipulación y análisis de datos. Proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar, especialmente adecuadas para procesar datos estructurados. Las dos estructuras de datos principales en Pandas son Seriesy DataFrame.

  • Serie : una serie es una matriz etiquetada unidimensional, similar a una lista o matriz en Python, pero cada elemento tiene una etiqueta (índice). Esto hace que Series sea muy útil para trabajar con datos de series temporales y otros datos etiquetados.

  • DataFrame : un DataFrame es una estructura de datos tabulares bidimensional, similar a una tabla de base de datos o una hoja de cálculo de Excel. Contiene varias columnas, cada una de las cuales puede tener un tipo de datos diferente y tiene etiquetas de fila y columna.

La biblioteca Pandas también proporciona muchas herramientas de análisis y manipulación de datos, incluido el filtrado, clasificación, agrupación, agregación, fusión y otras funciones de datos, lo que permite a los usuarios procesar y analizar fácilmente conjuntos de datos a gran escala.

1.2 ¿Por qué utilizar Pandas?

Usar Pandas tiene varias ventajas:

  1. Estructuras de datos : las estructuras de datos de Pandas son flexibles y funcionan con una variedad de tipos y formas de datos, incluidas series de tiempo, datos tabulares, datos multidimensionales y más.

  2. Limpieza de datos : Pandas proporciona potentes funciones de preprocesamiento y limpieza de datos, incluido el manejo de valores faltantes, valores duplicados, valores atípicos, etc.

  3. Análisis de datos : Pandas tiene una gran cantidad de herramientas de análisis de datos, que pueden realizar análisis estadísticos, perspectivas de datos, análisis de correlación, etc., que ayudan a obtener información sobre las características y tendencias de los datos.

  4. Visualización de datos : Pandas se puede combinar con otras bibliotecas de visualización de datos como Matplotlib y Seaborn para crear fácilmente varios gráficos de visualización de datos.

  5. Importación y exportación de datos : Pandas admite la importación de datos de una variedad de fuentes de datos, incluidas bases de datos CSV, Excel, SQL, etc., y también puede exportar datos procesados ​​a diferentes formatos.

  6. Amplio soporte comunitario : Pandas tiene una gran comunidad de usuarios que proporciona amplia documentación, tutoriales y soporte, lo que facilita el aprendizaje y el uso de Pandas.

1.3 Instalar e importar la biblioteca Pandas

Para instalar la biblioteca Pandas, puedes usar pip, el administrador de paquetes de Python. Ejecute el siguiente comando en la línea de comando para instalar Pandas:

pip install pandas

Una vez instalada, puedes importar la biblioteca Pandas en un script de Python o en un entorno interactivo:

import pandas as pd

Por lo general, Pandas se importa por convención y se le cambia el nombre pdpara facilitar el uso de las funciones y estructuras de datos de Pandas. Después de importar Pandas, puede comenzar a utilizar Pandas para el procesamiento y análisis de datos.

2. La estructura de datos central de Pandas

Serie 2.1: matriz de etiquetas unidimensional

La serie es una estructura de datos similar a una matriz unidimensional. A diferencia de las matrices Numpy, tiene etiquetas (índices) que se pueden usar para identificar y acceder a los datos. La serie consta de dos partes: parte de datos y parte de índice.

2.1.1 Crear serie

import pandas as pd

# 创建一个Series,包含一些整数数据
data = pd.Series([1, 2, 3, 4, 5])

# 输出Series
print(data)

 Resultado de salida:

0    1
1    2
2    3
3    4
4    5
dtype: int64

En el ejemplo anterior, la Serie contiene un conjunto de datos enteros y se le asignan automáticamente los índices enteros predeterminados (0, 1, 2, 3, 4).

2.1.2 Índice personalizado

import pandas as pd

# 创建一个Series,指定自定义索引
data = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 输出Series
print(data)

 Resultado de salida:

a    1
b    2
c    3
d    4
e    5
dtype: int64

En este ejemplo, especificamos índices personalizados para Series y cada índice corresponde a un valor de datos. 

2.2 DataFrame: tabla de datos bidimensional

DataFrame es la estructura de datos más utilizada en Pandas, que es similar a los datos tabulares en hojas de cálculo o bases de datos SQL. Un DataFrame consta de filas y columnas, y cada columna puede contener diferentes tipos de datos.

2.2.1 Creando marcos de datos

import pandas as pd

# 创建一个简单的DataFrame,包含姓名和年龄列
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
        '年龄': [25, 30, 35, 40]}

df = pd.DataFrame(data)

# 输出DataFrame
print(df)

Resultado de salida:

      姓名  年龄
0   Alice  25
1     Bob  30
2  Charlie  35
3    David  40

 En el ejemplo anterior, hemos creado un DataFrame con columnas de nombre y edad. El tipo de datos de cada columna puede ser diferente.

2.2.2 Importar marco de datos desde un archivo CSV

import pandas as pd

# 从CSV文件导入数据创建DataFrame
df = pd.read_csv('data.csv')

# 输出前几行数据
print(df.head())

        Este ejemplo demuestra cómo importar datos desde un archivo CSV y crear un DataFrame. Los datos del archivo CSV se convertirán en un DataFrame. 

2.3 Objeto de índice: contenedor para etiquetas de filas y columnas

       Los objetos de índice se utilizan en Pandas para identificar contenedores para etiquetas de filas y columnas. Cada DataFrame tiene un índice de fila (etiquetas de fila) y un índice de columna (etiquetas de columna), que son objetos de índice. Los objetos de índice son inmutables, lo que significa que no se puede cambiar su contenido una vez creados.

La siguiente es una explicación detallada y un ejemplo del objeto Índice:

2.3.1 Crear un objeto de índice

Puede pd.Index()crear objetos de índice usando o directamente en el DataFrame. Aquí hay unos ejemplos:

import pandas as pd

# 使用pd.Index()创建Index对象
index1 = pd.Index(['a', 'b', 'c', 'd'])

# 直接在DataFrame中创建Index对象
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
index2 = df.index

print(index1)
print(index2)

resultado de salida

Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['A', 'B', 'C', 'D'], dtype='object')

2.3.2 Índice de filas e índice de columnas

        En DataFrame, los objetos Index se utilizan para identificar filas y columnas. El índice de la fila está en la parte superior del DataFrame y el índice de la columna está a la izquierda del DataFrame. Aquí hay un ejemplo:

import pandas as pd

data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])

# 行索引
row_index = df.index
print("行索引:", row_index)

# 列索引
column_index = df.columns
print("列索引:", column_index)

Resultado de salida:

行索引: Index(['A', 'B', 'C', 'D'], dtype='object')
列索引: Index(['姓名'], dtype='object')

2.3.3 Indexación y corte utilizando el objeto Index

Puede utilizar el objeto Índice para seleccionar filas o columnas específicas en un DataFrame. Aquí hay unos ejemplos:

import pandas as pd

data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])

# 选择特定行
selected_row = df.loc['B']  # 通过行标签选择
print("选择行:\n", selected_row)

# 选择特定列
selected_column = df['姓名']  # 通过列标签选择
print("选择列:\n", selected_column)

# 使用loc进行切片
sliced_df = df.loc['B':'C']  # 使用行标签进行切片
print("切片行:\n", sliced_df)

Resultado de salida:

选择行:
 姓名    Bob
Name: B, dtype: object

选择列:
A      Alice
B        Bob
C    Charlie
D      David
Name: 姓名, dtype: object

切片行:
      姓名
B      Bob
C  Charlie

2.3.4 Propiedades y métodos del objeto Índice

El objeto Índice tiene algunos atributos y métodos de uso común, como valuesatributos, tolist()métodos, etc. Aquí hay unos ejemplos:

import pandas as pd

data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David']}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
row_index = df.index

# 获取Index对象的值
index_values = row_index.values
print("Index对象的值:", index_values)

# 将Index对象转换为列表
index_list = row_index.tolist()
print("Index对象转换为列表:", index_list)

# 检查索引是否包含特定值
contains_value = 'B' in row_index
print("索引包含'B':", contains_value)

Resultado de salida:

Index对象的值: ['A' 'B' 'C' 'D']
Index对象转换为列表: ['A', 'B', 'C', 'D']
索引包含'B': True

        Los objetos de índice se utilizan ampliamente en Pandas. Los objetos de índice pueden contener diferentes tipos de datos. Ayudan a identificar y manipular las filas y columnas de DataFrame, lo que hace que el análisis de datos sea más conveniente. Puede comprender mejor la indexación y el etiquetado de datos en Pandas si comprende cómo crear y utilizar objetos Index.

        Estos son los conceptos básicos y ejemplos de las estructuras de datos centrales de Pandas. Al utilizar Series, DataFrame e Index, puede procesar y analizar varios conjuntos de datos de manera más flexible.

3. Importación y exportación de datos

        Pandas proporciona una gran cantidad de funciones para importar fácilmente datos de diferentes fuentes de datos y guardarlos en archivos en diferentes formatos.

3.1 Importar datos desde un archivo CSV

Para importar datos desde un archivo CSV, puede utilizar pd.read_csv()funciones. Supongamos que hay un data.csvarchivo CSV llamado , que contiene los siguientes datos:

姓名,年龄
Alice,25
Bob,30
Charlie,35
David,40

Ejemplo de importación de datos:

import pandas as pd

# 从CSV文件导入数据
df = pd.read_csv('data.csv')

# 输出DataFrame
print(df)

3.2 Importar datos desde un archivo Excel

        Para importar datos desde un archivo de Excel, puede utilizar pd.read_excel()funciones. Supongamos que hay un data.xlsxarchivo de Excel llamado que contiene los siguientes datos:

姓名    年龄
Alice  25
Bob    30
Charlie 35
David  40

 Ejemplo de importación de datos:

import pandas as pd

# 从Excel文件导入数据
df = pd.read_excel('data.xlsx')

# 输出DataFrame
print(df)

3.3 Importar datos de la base de datos SQL

        Para importar datos desde una base de datos SQL, puede utilizar pd.read_sql()funciones. Primero, debe instalar el controlador de base de datos adecuado (por ejemplo pymysql, , sqlite3etc.) y luego establecer una conexión a la base de datos.

Ejemplo de importación de datos (usando la base de datos SQLite):

import pandas as pd
import sqlite3

# 建立SQLite数据库连接
conn = sqlite3.connect('mydatabase.db')

# 从数据库导入数据
query = "SELECT * FROM mytable"
df = pd.read_sql(query, conn)

# 关闭数据库连接
conn.close()

# 输出DataFrame
print(df)

 3.4 Guardar datos en archivos en diferentes formatos

        Para guardar datos de un DataFrame en un archivo en diferentes formatos, puede usar diferentes to_funciones como to_csv(),,, etc., según el tipo de archivo que to_excel()desee to_sql()guardar.

3.4.1 Ejemplo de guardar datos en un archivo CSV:

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
        '年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)

# 将数据保存到CSV文件
df.to_csv('output.csv', index=False)

3.4.2 Ejemplo de guardar datos en un archivo Excel:

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
        '年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)

# 将数据保存到Excel文件
df.to_excel('output.xlsx', index=False)

3.4.3 Ejemplo de guardar datos en una base de datos SQL (usando la base de datos SQLite):

import pandas as pd
import sqlite3

# 创建一个DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
        '年龄': [25, 30, 35, 40]}
df = pd.DataFrame(data)

# 建立SQLite数据库连接
conn = sqlite3.connect('mydatabase.db')

# 将数据保存到数据库中的新表格
df.to_sql('mytable', conn, if_exists='replace', index=False)

# 关闭数据库连接
conn.close()

        En el ejemplo anterior, primero creamos un DataFrame y luego usamos sqlite3el módulo para establecer mydatabase.dbuna conexión al archivo de base de datos SQLite. A continuación, usamos to_sql()una función para guardar los datos del DataFrame en mytableuna nueva tabla llamada. El parámetro if_exists='replace'indica que si la tabla ya existe, será reemplazada. Puede seleccionar otras opciones según sea necesario, como 'append'etc.

        Finalmente, cerramos la conexión de la base de datos para asegurarnos de que los datos se hayan guardado correctamente en la base de datos.

        Puede modificar los datos, el nombre de la tabla y otros parámetros relacionados según sea necesario para satisfacer sus necesidades específicas.

 

Supongo que te gusta

Origin blog.csdn.net/qq_35831906/article/details/132700337
Recomendado
Clasificación