Hoy he compilado algunos consejos y comandos comunes para el análisis de datos usando python.

Ocho consejos para mejorar la velocidad del análisis de datos de Python

Vista previa de datos con Pandas Profiling

Hemos hablado sobre este artefacto en detalle en el artículo anterior. El uso de Pandas Profiling puede obtener una vista previa rápida de los datos antes del análisis de datos. Tome el conjunto de datos de la NBA que hemos usado muchas veces.

Una línea de código genera informes EDA de datos interactivos enriquecidos

Como puede ver, además de algunas estadísticas descriptivas que necesitábamos antes, el informe también contiene la siguiente información:

Inferencia de tipo: detecta el tipo de datos de las columnas en el marco de datos.
Puntos clave: tipo, valor único, valor faltante
Estadísticas cuantiles, como mínimo, Q1, mediana, Q3, máximo, rango, rango cuartil
Estadística descriptiva como media, modo, desviación estándar, suma, desviación absoluta media, coeficiente de variación, curtosis, asimetría
Los valores más utilizados
Histograma
Matriz de correlación
Matriz de valor perdido, conteo, mapa de calor y dendrograma de valor perdido
Análisis de texto: comprenda las categorías de datos de texto (mayúsculas, espacio), scripts (latín, cirílico) y bloques (ASCII)

Usa gemelos para dibujar gráficos

El último artefacto Pandas Profiling puede ayudarnos rápidamente a obtener una vista previa de los datos, luego estos gemelos de artefactos pueden ayudarnos a usar DataFrame para dibujar rápidamente gráficos interactivos. Al igual que seaborn encapsula matplotlib, los gemelos crean un paquete adicional basado en plotly, con un método unificado y una configuración de parámetros simple.

Los estudiantes familiarizados con los pandas pueden saber que los pandas pueden llamar directamente a .plot () para dibujar, echemos un vistazo

df.plot()

Si usa gemelos para dibujar, también es una línea de código

df.iplot()

¿Los gráficos interactivos son más populares? Por supuesto, también puede usar directamente el DataFrame para dibujar otros gráficos complejos.

Si a menudo necesita visualización de datos en el análisis de datos, ¡considere usar gemelos!

Usar el comando mágico del cuaderno

El comando Magic es un conjunto de funciones convenientes en el cuaderno Jupyter. Un uso hábil de este comando puede resolver algunos problemas comunes en el análisis de datos. Use% lsmagic para ver todos los comandos de Magic. A continuación presentamos algunos de uso común.

% store: pasar variables entre diferentes cuadernos

No sé si ha experimentado el preprocesamiento de datos en un cuaderno, la limpieza de datos y otro trabajo relacionado, y la visualización en otro cuaderno, entonces, ¿cómo llamar directamente a los datos en otro cuaderno al dibujar? Se puede resolver fácilmente usando% store

%store 变量 #保存变量
%store -r 变量 #在另一个notebook中调用变量

% who: enumera todas las variables

En el proceso de análisis de datos a gran escala, ¿ha olvidado olvidar qué variables están definidas u olvidar si se asigna una variable o no, olvidar el nombre de la variable o incluso eliminar la declaración de asignación. No importa usar el comando% who para enumerar todas las variables en este cuaderno

% depuración: depuración interactiva

A veces escribimos un gran código para ejecutarlo y encontramos un error. En este momento, la depuración es relativamente dolorosa, entonces podemos escribir% debug en una nueva línea y ejecutarla. Esto abrirá un entorno de depuración interactivo, que puede localizar directamente la ubicación donde se produce la excepción. También puede verificar los valores variables asignados en el programa y realizar operaciones aquí

Hay muchos comandos mágicos en el cuaderno, que no se introducen uno por uno. Si está interesado, puede consultarlos y utilizarlos o prestar atención a los artículos de seguimiento del número público "early python".

Usa los atajos de jupyter

Como un excelente editor para generar código incrustado, Jupyter viene con muchas teclas de acceso directo. El uso experto de las teclas de acceso directo ahorrará muchas operaciones engorrosas de clic del mouse. Puede usar Cmd + Shift + P o Ctrl + Shift + P en Linux y Windows Vea qué teclas de acceso directo están disponibles.

De uso común

Tab : 代码补全或缩进
Shift-Tab : 提示
Ctrl-] : 缩进
Ctrl-[ : 解除缩进
Ctrl-Home : 跳到单元开头
Ctrl-Up : 跳到单元开头
Ctrl-End : 跳到单元末尾
Ctrl-Down : 跳到单元末尾
Ctrl-Left : 跳到左边一个字首
Ctrl-Right : 跳到右边一个字首

Use pprint

pprint es la abreviatura de bonita impresora, que se utiliza para imprimir estructuras de datos de Python. En comparación con la impresión, la estructura impresa es más ordenada y fácil de leer.

Primer vistazo a la impresión

Echemos un vistazo a pprint, ¿es más fácil de leer?

Domine múltiples métodos para manejar valores atípicos

Cuando se usa python para el análisis de datos, si faltan valores, valores nulos o valores atípicos en el conjunto de datos, la limpieza de datos es un paso particularmente importante. Por lo tanto, dominar una variedad de métodos para tratar los valores atípicos utilizando python y preprocesar los valores atípicos antes del análisis de datos mejorará en gran medida la eficiencia del análisis de datos.

Por ejemplo, reemplace los datos faltantes con '*'. Podemos usar .fillna ('*') para reemplazar todos los valores faltantes con *, o data.fillna (axis = 1, method = 'ffill') para reemplazar el valor faltante con el valor anterior del valor faltante horizontal / verticalmente, luego más Para el método de procesamiento atípico, consulte los datos de limpieza del análisis de datos de Python: procesamiento del valor faltante

Use -i para ejecutar un script de Python

Todos sabemos que python filename.py se puede usar para ejecutar scripts de python en la línea de comando, y recomiendo usar python -i filename.py para ejecutar scripts de python, porque después de ejecutar este script, python no saldrá del compilador. Entonces podemos verificar el valor de la variable o continuar la operación.

Y si hay un error en nuestro código, el comando localizará directamente la ubicación donde el código es anormal, y luego podemos manejar el código más convenientemente, echemos un vistazo

Leer datos en lotes

A veces, cuando usamos pandas para leer archivos de datos muy grandes, si leemos directamente todos los datos a la vez, habrá memoria insuficiente, por lo que deberíamos leer los datos en lotes y procesar cada uno Los lotes luego guardan los resultados de cada lote y finalmente resumen los resultados de todos los lotes.

Si quieres aprender Python o estás aprendiendo Python, hay muchos tutoriales de Python, pero ¿es el último? Tal vez haya aprendido algo que la gente podría haber aprendido hace dos años, y aquí comparto una ola de los últimos tutoriales de Python para 2020. Cómo obtenerlo, puede obtenerlo gratis editando la "Información" de la carta privada