El procesamiento de datos: --- 1 pandas ver, por duplicado, elementos de borrado df.duplicated (subconjunto = Ninguno, guardar = 'primera' / 'última' / Falso)

1. Compruebe los elementos de marca de repetición

1.1 Función **: ** duplicados (): df.duplicated (subconjunto = Ninguno, = Mantener 'Primera' / 'Última' / Falso)
el análisis de parámetros 1.2:
A.subset: nombre de la columna valor correspondiente se expresa sólo que no escribe columna, la columna de la misma fila corresponde a un valor de peso, el valor por defecto None, es decir, teniendo en cuenta todas las columnas;
B.Keep = '/ Apellido / Falso': valores predeterminados, excepto la primera vez, el resto de la misma: primero marcados como duplicados; última: a excepción de la última aparición, el resto están marcados como duplicado mismo; falso: es decir, de todos modos están marcados como duplicados;
C utilizando duplicados valor de la función () la etiqueta detectable Series, la trama de datos si las filas se repiten, la repetición es cierto que no se repite Falso;
1,3 combate:
A.keep = 'Primera'
Aquí Insertar imagen Descripción
B.Keep = 'Última'
Aquí Insertar imagen Descripción
C.keep = False
Aquí Insertar imagen Descripción
D. lista de títulos de las columnas seleccionadas, la etiqueta en la lista como para detectar campos duplicados: subconjunto
Aquí Insertar imagen Descripción
E. averiguar los datos duplicados, eliminar;
soltar: tenemos que averiguar el índice que desea eliminar y, a continuación, elimine la forma de índice para los datos de borrado;
Aquí Insertar imagen Descripción

2. Retirar los elementos duplicados

** 2.1 usando la función: drop_duplicates ** (): df.drop_duplicates (Subconjunto = Ninguno, = Mantener 'primero', InPlace = False)
análisis 2.2 parámetro:
formato de datos A.drop_duplicate trama de datos se elimina siguiendo repitiendo particular, la columna línea, el formato de datos vuelve trama de datos;
B.subset: se utiliza para especificar una columna en particular, todas las columnas por defecto;
C.keep: hay tres valores, { 'primero', 'último ', False}, el valor por defecto en primer lugar, quitar y duplicados primera aparición de artículos retenidos;
D.inplace: es modificar directamente los datos originales o guardar una copia de
2,3 combate real:
Aquí Insertar imagen Descripción
Enviar Editor: el contenido de la referencia del artículo y del material de aprendizaje difícil de resolver, como para venir a alabar ~
Aquí Insertar imagen Descripción

Publicado 73 artículos originales · ganado elogios 24 · vistas 2568

Supongo que te gusta

Origin blog.csdn.net/weixin_44943394/article/details/103930179
Recomendado
Clasificación