Lenguaje R (5) -- conversión de datos (preprocesamiento)

Conversión de tipo de datos - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

el juez es

métodos(es) todos los usos de #es

Determinar si se trata de un marco de datos

es.datos.marco(datos) 

convertir

donde los vectores se pueden convertir en una variedad de datos

matriz a marco de datos

datos <- como.datos.marco(datos)

Convertir marco de datos a matriz

como.matriz()

convertir a factor

como.factor()

No hay necesidad de nombres, elimine los nombres de las columnas

nombre()

convertir a vector

deslistar()

Subconjunto - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Tome filas y columnas específicas de un marco de datos

data1 <-data[c(1:50),c(1:30)] #Extraer filas y columnas continuamente

data2 <-data[c(1,3,4,5),c(1,12,15)] #extracción no continua de filas y columnas

Filtrar con valores lógicos

datos3 <-datos[que(datos$factor == 7)] #elegir factor 7

datos4 <- datos[que(datos$factor > 7 & datos$factores <= 100]

función de subconjunto

datos4 <- subconjunto(datos, datos$factor > 7 & datos$factor <= 100]

muestreo de muestras

Es posible el muestreo aleatorio con y sin retorno

sample(x, num, replace = True) #x es la muestra a muestrear, num se refiere al número de muestras, replaceT se refiere al reemplazo

Fusionar - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 

cbind(marco de datos, factor) #combinar columnas

rbind() #Cada columna en la fila debe ser igual a los datos originales

merge(x,y ,by= "") # by se refiere a lo que se fusiona

Voltear - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 

Voltear fila y columna t()

tdatos<- t(datos)

voltear una sola línea rev()

revolución (vectorial)

por ejemplo, invertir la línea

mujeres[rev(nombresdefila(mujeres)),]

Revisar- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 

deduplicación de datos

duplicado (datos) #return valor booleano duplicado

data[!duplicated(data),] #Sacar la parte no duplicada

único (datos) # eliminar la parte que no se repite en un solo paso

Modificar una transformación de columna ()

transform(mujeres, altura = altura*2.54) #Operación de datos originales

transform(mujeres, cm = altura*2.54) #Generar una nueva columna

Clasificar - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 

Ordenar en una sola condición

clasificar()

sort() #El número predeterminado es de menor a mayor, y el inglés se ordena por la primera letra

rev(ordenar()) #ordenar al revés

#sort no se puede usar para clasificar marcos de datos, solo se pueden usar vectores, pero puede salvar el país con curvas

mtcars[ordenar(nombresdefila(mtcars)), ]

orden() 

#Devuelve la posición del vector en lugar del resultado ordenado

mtcars[orden(mtcars$mpg), ]

Ordenar por múltiples criterios

mtcars[orden(mtcars$mpg, mtcars$disp), ]

Paquetes de conversión de datos de uso común - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

remodelar2

ancho a largo

melt(data, id.vars = c("col1", "col2" )) #melt data, cambiar datos anchos en datos largos, id.vars debe mantenerse

largo y ancho

dcast(aql, mes+día ~variable) #Según el nivel hermano de la columna variable como nombre de columna, la columna de mes y día como ID se coloca en el extremo izquierdo, y las variables restantes se agregan al nuevo conjunto de datos de de izquierda a derecha

vamos

tidydata: una observación y una variable determinan un valor

ancho a largo

recolectar()

largo y ancho

desparramar()

Una columna se divide en varias columnas.

separado()

p.ej

df <- data.frame(x = c(NA, "ab", "anuncio", "bc"))

separete(df,col = x, into = c("A", "B"),sep = "") #El separador se reconocerá por defecto, pero también puede ser especificado por sep

Combinar varias columnas en una sola columna

unidad() 

p.ej 

unir(x, col = "AB", A, B, sep = "-")

dplyr

filtrar

* :: es para evitar conflictos entre paquetes con el mismo nombre de función

filtrar()

p.ej

dplyr::filter(iris, Sopal.Length >7) #filtrar longitud del cáliz del iris <7

eliminar filas duplicadas

dplyr::distinto(datos) 

Rebanando cualquier fila

dplyr::slice(iris,10:15) #Sacar 10-15 líneas

muestreo

dplyr::sample_n(iris, 10) # Seleccionar aleatoriamente diez líneas

dplyr::sample_frac(iris,0.1) #Selección aleatoria en proporción

para ordenar

dplyr::arrange(iris, Sopal.Length) #ordenar por longitud del sépalo

dplyr::arrange(iris, desc(Sopal.Length)) #Ordenar en la dirección opuesta 

Subconjunto

seleccionar()

Estadísticas

summarise(iris, avg = mean(Sopal.Length)) #calcular la longitud promedio del sépalo

grupo

dplyr::group_by(iris, Especie)

iris %>% group_by(Especies)

añadir variable

dplyr::mutate(iris, new = Separ.Length + Petal.Length)

operación de varias mesas

dplyr::left_join() #enlace izquierdo

dplyr::right_join() #enlace correcto

#Inner link es la intersección

dplyr::full_join() #El enlace completo es una unión

dplyr::semi_join() #Semi-link: filtra la tabla de la izquierda según el contenido de la tabla de la derecha

dplyr::anti_join() #anti-enlace: complemento de salida

Operaciones de varios conjuntos de datos

intersect() #tomar la intersección

union_all() #tomar unión

setdiff() #tomar complemento conjunto

Carácter de barra vertical (operador de cadena %>%) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Implementar pasar la salida de una función a la siguiente función como entrada a la siguiente función

Salida de tecla de método abreviado ctrl + shift + M disponible

Cálculos matemáticos sobre tramas de datos - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 

suma de filas sumas de filas()

rs <- rowSums(worldphones)

total <- cbind(worldphones,Total = rs) #añadir esta línea

Columna Significa colMeans()

cm<- colMeans(worldphones)

apply() es más versátil, así que úsalo

aplicar (worldphones, MARGEN = 1, DIVERSIÓN = suma)

MARGEN: 1 representa el procesamiento de filas, 2 representa el procesamiento de columnas

lapply() devuelve una lista

sapply() devuelve un vector/matriz

tapply() procesa datos de factores, los agrupa por factor y luego los procesa

tapply(estado.nombre, estado.dicisión, DIVERSIÓN = longitud)

Centralización y estandarización de datos - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -  

Función: elimina el impacto de las dimensiones en los datos, haciendo que la diferencia entre los datos sea más pequeña

centralizado

Los datos en el conjunto de datos menos la media del conjunto de datos

x-media(x)

Estandarización

Después de centrar el conjunto de datos, se divide por la desviación estándar del conjunto de datos

x-media(x) / sd(x)

Centralización + Estandarización

escala(x,centro = T, escala = T)

Supongo que te gusta

Origin blog.csdn.net/Scabbards_/article/details/130441677
Recomendado
Clasificación