¿Qué tipo de datos maneja pandas?

Pandas es una biblioteca Python de terceros de código abierto construida sobre la base de Numpy y Matplotlib, y disfruta de la reputación de "uno de los tres espadachines" en el análisis de datos (NumPy, Matplotlib, Pandas). Pandas se ha convertido en una herramienta avanzada esencial para el análisis de datos de Python, y su objetivo es convertirse en una herramienta de análisis de datos poderosa y flexible que pueda soportar cualquier lenguaje de programación.

GIF

El nombre Pandas proviene de la combinación de los términos Panel Data y análisis de datos. En economía, Panel Data es un término para cubos. Pandas se usó originalmente en el campo de las transacciones financieras cuantitativas, y ahora sus campos de aplicación son más extensos y abarcan muchas industrias, como la agricultura, la industria y el transporte.

Pandas fue desarrollado originalmente por Wes McKinney en 2008 y se hizo de código abierto en 2009. Actualmente, Pandas es desarrollado y mantenido de forma rutinaria por el equipo de PyData. En diciembre de 2020, el equipo de PyData anunció la última versión de Pandas 1.20.

Antes de que apareciera Pandas, Python era el principal responsable de la recopilación y el preprocesamiento de datos en las tareas de análisis de datos, pero el soporte para el análisis de datos era muy limitado y no destacaba la simplicidad y facilidad de uso de Python.

La aparición de Pandas ha mejorado enormemente la capacidad de Python para realizar análisis de datos. Principalmente realiza cinco enlaces importantes de análisis de datos:

  • Descargar datos
  • Organizar datos
  • datos operativos
  • Construir un modelo de datos
  • analizar datos

Datos procesados ​​por Pandas:

  • Datos tabulares: la función más utilizada de Pandas es procesar datos tabulares, como CSV, Excel, resultados de consultas de bases de datos, etc. Los datos tabulares generalmente se organizan en filas y columnas, donde cada columna representa una variable o atributo específico y cada fila representa un registro de datos u observación. Pandas proporciona DataFrameesta estructura de datos para representar datos tabulares bidimensionales y proporciona métodos enriquecidos para procesar, manipular y analizar estos datos.
  • Datos de series temporales: Pandas tiene un gran soporte para trabajar con datos de series temporales. Los datos de series temporales son una colección de datos organizados en orden cronológico, como precios de acciones, datos meteorológicos, datos de sensores, etc. Pandas proporciona estructuras de datos relacionadas con Timestampel tiempo DatetimeIndex, así como una serie de funciones y métodos para procesar datos de series temporales, como indexación temporal, remuestreo, cálculos de ventana móvil, etc.
  • Datos faltantes: los datos del mundo real a menudo tienen valores faltantes, es decir, los datos de algunas observaciones están incompletos o faltan. Pandas proporciona capacidades de procesamiento flexibles para datos faltantes. Los valores faltantes se pueden marcar, filtrar, completar o eliminar para un mejor procesamiento y análisis de datos.
  • Datos heterogéneos: los datos heterogéneos se refieren a una colección de datos compuesta por diferentes tipos de datos. Por ejemplo, en los datos tabulares, diferentes columnas pueden contener diferentes tipos de datos, como valores numéricos, cadenas, fechas, etc. Pandas DataFramepuede manejar datos heterogéneos y proporciona capacidades de procesamiento flexibles para diferentes tipos de datos, incluida la conversión de tipos, la selección de columnas de tipos de datos específicos, etc.
  • Preprocesamiento de datos: En las tareas de análisis de datos, el preprocesamiento de datos es un paso muy importante. Pandas proporciona una gran cantidad de funciones y métodos para la limpieza, transformación y regularización de datos, como la deduplicación de datos, la remodelación, la fusión, el corte, el filtrado, etc. A través de estas capacidades, los datos sin procesar y desordenados se pueden organizar en una forma adecuada para el análisis y el modelado.
  • Visualización de datos: en combinación con otras bibliotecas de visualización de datos (como Matplotlib y Seaborn), Pandas puede realizar varias tareas de visualización de datos. A través de la estructura de datos y las funciones de Pandas, puede procesar y organizar fácilmente los datos y luego usar herramientas de visualización para dibujar gráficos, mostrar gráficos estadísticos, etc., para comprender y comunicar mejor los datos.

Características principales de los pandas:

Pandas incluye principalmente las siguientes características:

  • Proporciona un objeto DataFrame simple y eficiente con etiquetas predeterminadas (las etiquetas personalizadas también son posibles).
  • Capacidad para cargar rápidamente datos de archivos en diferentes formatos (como archivos Excel, CSV, SQL) y luego convertirlos en objetos procesables;
  • Capacidad para agrupar por etiquetas de fila y columna de datos, y realizar operaciones de agregación y conversión en objetos agrupados;
  • Es muy conveniente realizar la operación de normalización de datos y el procesamiento de valores faltantes;
  • Es muy conveniente agregar, modificar o eliminar las columnas de datos de DataFrame;
  • Capacidad para manejar conjuntos de datos en diferentes formatos, como datos matriciales, tablas de datos heterogéneos, series temporales, etc.;
  • Proporciona una variedad de formas de procesar conjuntos de datos, como crear subconjuntos, dividir, filtrar, agrupar y reordenar.

Principales ventajas de los pandas:

En comparación con los paquetes de análisis de datos en otros idiomas, Pandas tiene las siguientes ventajas:

  • DataFrame y Series de Pandas crean estructuras de almacenamiento adecuadas para el análisis de datos;
  • La API concisa de Pandas le permite concentrarse en el núcleo de su código;
  • Pandas permite la integración con otras bibliotecas como Scipy, scikit-learn y Matplotlib;
  • El sitio web oficial de Pandas ( haga clic para visitar ) brinda soporte completo de datos y un buen entorno comunitario.

Estructuras de datos integradas de Pandas:

Sabemos que construir y manipular matrices bidimensionales y multidimensionales es una tarea tediosa. Para resolver este problema, Pandas ha construido dos estructuras de datos diferentes basadas en matrices ndarray (matrices en NumPy), a saber, Series (estructura de datos unidimensional) y DataFrame (estructura de datos bidimensional):

  • La serie es una matriz unidimensional etiquetada, donde la etiqueta puede entenderse como un índice, pero este índice no se limita a números enteros, también puede ser un tipo de carácter, como a, b, c, etc.;
  • Un DataFrame es una estructura de datos tabulares que tiene etiquetas de fila y columna.

La siguiente es una breve descripción de la estructura de datos anterior:

estructura de datos dimensión ilustrar
Serie 1 Esta estructura puede almacenar varios tipos de datos, como números de caracteres, enteros, números de punto flotante, objetos de Python, etc. Las series usan atributos de nombre e índice para describir
valores de datos. La serie es una estructura de datos unidimensional, por lo que su dimensionalidad no se puede cambiar.
Marco de datos 2 DataFrame es una estructura de datos tabular bidimensional con índices de fila y columna. El índice de fila es índice y el índice de columna es columnas.
Al crear la estructura, puede especificar el valor de índice correspondiente.

Debido a la existencia de la estructura de datos anterior, la tarea de procesar números de matrices multidimensionales se vuelve simple.

Tenga en cuenta que después de la versión 0.25 de Pandas, Pamdas dejó de usar la estructura de datos del Panel.

Supongo que te gusta

Origin blog.csdn.net/Itmastergo/article/details/131973535
Recomendado
Clasificación