Tutorial básico de Python: relleno de trama de datos de Python, método de relleno y relleno

@Este artículo proviene del número público: csdn2299, como si pudieras prestar atención a la academia de programadores de números públicos

Hoy, el editor compartirá con usted un método para completar el marco de datos de python, fillna y ffill, que tiene un buen valor de referencia, y espero que lo ayude. Echemos un vistazo con el editor,
primero cree un nuevo marco de datos:

In[8]: df = pd.DataFrame({'name':list('ABCDA'),'house':[1,1,2,3,3],'date':['2010-01-01','2010-06-09','2011-12-03','2011-04-05','2012-03-23']})
In[9]: df
Out[9]: 
   date house name
0 2010-01-01  1 A
1 2010-06-09  1 B
2 2011-12-03  2 C
3 2011-04-05  3 D
4 2012-03-23  3 A

Cambie la columna de fecha a tipo de hora:

In[12]: df.date = pd.to_datetime(df.date)

El significado de los datos es el siguiente: tenemos los datos de cuatro personas en ABCD. Se sabe que cuando A es el 01-01-2010, hay 1 suite bajo el nombre, y cuando B es el 06-06-2010, hay 1 suite bajo el nombre, C En 2011-12-03, había 2 suites, D en 2011-04-05, 3 suites, A en 2012-02-23, los datos se actualizaron, hay dos suites.

Se requiere que si hay un nombre y una hora, cuántas suites se pueden dar bajo su nombre:

Por ejemplo, A debería ser 1 suite en cualquier día entre 2010-01-01 y 2012-03-23. Después de 2012-03-23, A debería ser 3 suites.

Usamos el método fillna de pandas y elegimos ffill.

Primero obtenemos un dataframeIn del 2010-01-01 al 2017-12-01

[14]: time_range = pd.DataFrame(
 pd.date_range('2010-01-01','2017-12-01',freq='D'), columns=['date']).set_index("date")
In[15]: time_range
Out[15]: 
Empty DataFrame
Columns: []
Index: [2010-01-01 00:00:00, 2010-01-02 00:00:00, 2010-01-03 00:00:00, 2010-01-04 00:00:00, 2010-01-05 00:00:00, 2010-01-06 00:00:00, 2010-01-07 00:00:00, 2010-01-08 00:00:00, 2010-01-09 00:00:00, 2010-01-10 00:00:00, 2010-01-11 00:00:00, 2010-01-12 00:00:00, 2010-01-13 00:00:00, 2010-01-14 00:00:00, 2010-01-15 00:00:00, 2010-01-16 00:00:00, 2010-01-17 00:00:00, 2010-01-18 00:00:00, 2010-01-19 00:00:00, 2010-01-20 00:00:00, 2010-01-21 00:00:00, 2010-01-22 00:00:00, 2010-01-23 00:00:00, 2010-01-24 00:00:00, 2010-01-25 00:00:00, 2010-01-26 00:00:00, 2010-01-27 00:00:00, 2010-01-28 00:00:00, 2010-01-29 00:00:00, 2010-01-30 00:00:00, 2010-01-31 00:00:00, 2010-02-01 00:00:00, 2010-02-02 00:00:00, 2010-02-03 00:00:00, 2010-02-04 00:00:00, 2010-02-05 00:00:00, 2010-02-06 00:00:00, 2010-02-07 00:00:00, 2010-02-08 00:00:00, 2010-02-09 00:00:00, 2010-02-10 00:00:00, 2010-02-11 00:00:00, 2010-02-12 00:00:00, 2010-02-13 00:00:00, 2010-02-14 00:00:00, 2010-02-15 00:00:00, 2010-02-16 00:00:00, 2010-02-17 00:00:00, 2010-02-18 00:00:00, 2010-02-19 00:00:00, 2010-02-20 00:00:00, 2010-02-21 00:00:00, 2010-02-22 00:00:00, 2010-02-23 00:00:00, 2010-02-24 00:00:00, 2010-02-25 00:00:00, 2010-02-26 00:00:00, 2010-02-27 00:00:00, 2010-02-28 00:00:00, 2010-03-01 00:00:00, 2010-03-02 00:00:00, 2010-03-03 00:00:00, 2010-03-04 00:00:00, 2010-03-05 00:00:00, 2010-03-06 00:00:00, 2010-03-07 00:00:00, 2010-03-08 00:00:00, 2010-03-09 00:00:00, 2010-03-10 00:00:00, 2010-03-11 00:00:00, 2010-03-12 00:00:00, 2010-03-13 00:00:00, 2010-03-14 00:00:00, 2010-03-15 00:00:00, 2010-03-16 00:00:00, 2010-03-17 00:00:00, 2010-03-18 00:00:00, 2010-03-19 00:00:00, 2010-03-20 00:00:00, 2010-03-21 00:00:00, 2010-03-22 00:00:00, 2010-03-23 00:00:00, 2010-03-24 00:00:00, 2010-03-25 00:00:00, 2010-03-26 00:00:00, 2010-03-27 00:00:00, 2010-03-28 00:00:00, 2010-03-29 00:00:00, 2010-03-30 00:00:00, 2010-03-31 00:00:00, 2010-04-01 00:00:00, 2010-04-02 00:00:00, 2010-04-03 00:00:00, 2010-04-04 00:00:00, 2010-04-05 00:00:00, 2010-04-06 00:00:00, 2010-04-07 00:00:00, 2010-04-08 00:00:00, 2010-04-09 00:00:00, 2010-04-10 00:00:00, ...]
  
[2892 rows x 0 columns]

Luego use la tabla pivot mencionada en la publicación de blog anterior para convertir el df original y realice una operación de fusión con time_range.

In[16]: df = pd.pivot_table(df, columns='name', index='date')
  
In[17]: df
Out[17]: 
   house    
name   A B C D
date       
2010-01-01 1.0 NaN NaN NaN
2010-06-09 NaN 1.0 NaN NaN
2011-04-05 NaN NaN NaN 3.0
2011-12-03 NaN NaN 2.0 NaN
2012-03-23 3.0 NaN NaN NaN
In[18]: df = df.merge(time_range,how="right", left_index=True, right_index=True)

Luego proceda a completar la operación:

In[20]: df = df.fillna(method='ffill')

Por último:

df = df.stack().reset_index()

El resultado es demasiado largo y no se pegará aquí. Si desea llenar, puede elegir method = 'bfill'.
Muchas gracias por leer
. Elegí Python para el autoestudio cuando estaba en la universidad. Descubrí que me comí una base de computadora mala. No tengo una calificación académica. Esto
no es nada que hacer. Solo puedo compensarlo. Entonces, comencé mi propio camino de contraataque fuera de la codificación, aprendiendo constantemente el conocimiento central de Python, estudio en profundidad del conocimiento básico de la computadora, y lo resolví. Crecer
De hecho, no solo hay tecnología aquí, sino también cosas más allá de esas tecnologías. Por ejemplo, cómo ser un programador exquisito, en lugar de "seda de gallo", el programador en sí es una existencia noble, ¿no? [Haz clic para unirte] ¡ Quieres ser tú mismo, quieres ser una persona noble, vamos!

Publicado 45 artículos originales · elogiado 16 · 20,000+ vistas

Supongo que te gusta

Origin blog.csdn.net/chengxun03/article/details/105522157
Recomendado
Clasificación