El procesamiento de datos es omnipresente, dominar habilidades comunes puede hacer más con menos. Esta serie utiliza Pandas para llevar a cabo el procesamiento y análisis de datos, y resume técnicas de análisis de datos útiles y de uso común.
artículo recomendado
-
El curso de mandarín "Aprendizaje automático" de Li Hongyi (2022) ya está aquí
-
Alguien hizo una versión china del aprendizaje automático y el aprendizaje profundo del Sr. Wu Enda
-
Soy adicto, y recientemente le di a la compañía una gran pantalla visual (con código fuente)
-
Tan elegantes, los artefactos de análisis de datos automáticos de 4 Python son realmente fragantes
La versión de Pandas que uso es la siguiente y, por cierto, también importo la biblioteca de Pandas.
>>> import pandas as pd
>>> pd.__version__
'0.25.1'
Asegúrese de que el intérprete y el conjunto de datos estén en el mismo directorio antes de comenzar:
>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']
Una vez que los preparativos están en su lugar, comienza el viaje de las habilidades de procesamiento de datos.
1 pandas eliminar una columna
Datos de importacion
>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
Rank Title Genre ... Votes Revenue (Millions) Metascore
0 1 Guardians of the Galaxy Action,Adventure,Sci-Fi ... 757074 333.13 76.0
[1 rows x 12 columns]
Use el método pop para eliminar columnas específicas:
>>> meta = df.pop("Title").to_frame() # 移除 Title 列
Compruebe si se ha eliminado:
>>> df.head(1) # df 变为 11列
Rank Genre ... Revenue (Millions) Metascore
0 1 Action,Adventure,Sci-Fi ... 333.13 76.0
[1 rows x 11 columns]
2 Cuente el número de palabras del título
Obtenga meta después de pop y muestre las primeras 3 líneas de meta:
>>> meta.head(3)
Title
0 Guardians of the Galaxy
1 Prometheus
2 Split
Los títulos están formados por palabras separadas por espacios.
# .str.count(" ") + 1 得到单词个数
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1
>>> meta.head(3) # words_count 列代表单词个数
Title words_count
0 Guardians of the Galaxy 4
1 Prometheus 1
2 Split 1
3 estadísticas de frecuencia de género
Lo siguiente cuenta la frecuencia de la película Género,
>>> vc = df["Genre"].value_counts()
A continuación se muestra el top 5 de géneros de la película. La frecuencia más alta son las clases de acción, aventura y ciencia ficción que aparecen 50 veces, seguidas por la clase de drama que aparece 48 veces:
>>> vc.head()
Action,Adventure,Sci-Fi 50
Drama 48
Comedy,Drama,Romance 35
Comedy 32
Drama,Romance 31
Name: Genre, dtype: int64
Gráfico circular que muestra Top5:
>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()
Intercambio de Tecnología
¡Bienvenido a reimprimir, coleccionar, dar me gusta y apoyar!
En la actualidad, se ha abierto un grupo de intercambio técnico, con más de 2000 miembros . La mejor manera de comentar al agregar es: fuente + dirección de interés, que es conveniente para encontrar amigos afines.
- Método 1. Envíe la siguiente imagen a WeChat, mantenga presionada para identificarla y responda en segundo plano: agregar grupo;
- Método ②, agregar microseñal: dkl88191 , nota: de CSDN
- Método ③, cuenta pública de búsqueda de WeChat: aprendizaje de Python y extracción de datos , respuesta en segundo plano: agregar grupo