Conversión de tipo de datos - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
el juez es
métodos(es) todos los usos de #es
Determinar si se trata de un marco de datos
es.datos.marco(datos)
convertir
donde los vectores se pueden convertir en una variedad de datos
matriz a marco de datos
datos <- como.datos.marco(datos)
Convertir marco de datos a matriz
como.matriz()
convertir a factor
como.factor()
No hay necesidad de nombres, elimine los nombres de las columnas
nombre()
convertir a vector
deslistar()
Subconjunto - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tome filas y columnas específicas de un marco de datos
data1 <-data[c(1:50),c(1:30)] #Extraer filas y columnas continuamente
data2 <-data[c(1,3,4,5),c(1,12,15)] #extracción no continua de filas y columnas
Filtrar con valores lógicos
datos3 <-datos[que(datos$factor == 7)] #elegir factor 7
datos4 <- datos[que(datos$factor > 7 & datos$factores <= 100]
función de subconjunto
datos4 <- subconjunto(datos, datos$factor > 7 & datos$factor <= 100]
muestreo de muestras
Es posible el muestreo aleatorio con y sin retorno
sample(x, num, replace = True) #x es la muestra a muestrear, num se refiere al número de muestras, replaceT se refiere al reemplazo
Fusionar - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
cbind(marco de datos, factor) #combinar columnas
rbind() #Cada columna en la fila debe ser igual a los datos originales
merge(x,y ,by= "") # by se refiere a lo que se fusiona
Voltear - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Voltear fila y columna t()
tdatos<- t(datos)
voltear una sola línea rev()
revolución (vectorial)
por ejemplo, invertir la línea
mujeres[rev(nombresdefila(mujeres)),]
Revisar- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
deduplicación de datos
duplicado (datos) #return valor booleano duplicado
data[!duplicated(data),] #Sacar la parte no duplicada
único (datos) # eliminar la parte que no se repite en un solo paso
Modificar una transformación de columna ()
transform(mujeres, altura = altura*2.54) #Operación de datos originales
transform(mujeres, cm = altura*2.54) #Generar una nueva columna
Clasificar - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Ordenar en una sola condición
clasificar()
sort() #El número predeterminado es de menor a mayor, y el inglés se ordena por la primera letra
rev(ordenar()) #ordenar al revés
#sort no se puede usar para clasificar marcos de datos, solo se pueden usar vectores, pero puede salvar el país con curvas
mtcars[ordenar(nombresdefila(mtcars)), ]
orden()
#Devuelve la posición del vector en lugar del resultado ordenado
mtcars[orden(mtcars$mpg), ]
Ordenar por múltiples criterios
mtcars[orden(mtcars$mpg, mtcars$disp), ]
Paquetes de conversión de datos de uso común - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
remodelar2
ancho a largo
melt(data, id.vars = c("col1", "col2" )) #melt data, cambiar datos anchos en datos largos, id.vars debe mantenerse
largo y ancho
dcast(aql, mes+día ~variable) #Según el nivel hermano de la columna variable como nombre de columna, la columna de mes y día como ID se coloca en el extremo izquierdo, y las variables restantes se agregan al nuevo conjunto de datos de de izquierda a derecha
vamos
tidydata: una observación y una variable determinan un valor
ancho a largo
recolectar()
largo y ancho
desparramar()
Una columna se divide en varias columnas.
separado()
p.ej
df <- data.frame(x = c(NA, "ab", "anuncio", "bc"))
separete(df,col = x, into = c("A", "B"),sep = "") #El separador se reconocerá por defecto, pero también puede ser especificado por sep
Combinar varias columnas en una sola columna
unidad()
p.ej
unir(x, col = "AB", A, B, sep = "-")
dplyr
filtrar
* :: es para evitar conflictos entre paquetes con el mismo nombre de función
filtrar()
p.ej
dplyr::filter(iris, Sopal.Length >7) #filtrar longitud del cáliz del iris <7
eliminar filas duplicadas
dplyr::distinto(datos)
Rebanando cualquier fila
dplyr::slice(iris,10:15) #Sacar 10-15 líneas
muestreo
dplyr::sample_n(iris, 10) # Seleccionar aleatoriamente diez líneas
dplyr::sample_frac(iris,0.1) #Selección aleatoria en proporción
para ordenar
dplyr::arrange(iris, Sopal.Length) #ordenar por longitud del sépalo
dplyr::arrange(iris, desc(Sopal.Length)) #Ordenar en la dirección opuesta
Subconjunto
seleccionar()
Estadísticas
summarise(iris, avg = mean(Sopal.Length)) #calcular la longitud promedio del sépalo
grupo
dplyr::group_by(iris, Especie)
iris %>% group_by(Especies)
añadir variable
dplyr::mutate(iris, new = Separ.Length + Petal.Length)
operación de varias mesas
dplyr::left_join() #enlace izquierdo
dplyr::right_join() #enlace correcto
#Inner link es la intersección
dplyr::full_join() #El enlace completo es una unión
dplyr::semi_join() #Semi-link: filtra la tabla de la izquierda según el contenido de la tabla de la derecha
dplyr::anti_join() #anti-enlace: complemento de salida
Operaciones de varios conjuntos de datos
intersect() #tomar la intersección
union_all() #tomar unión
setdiff() #tomar complemento conjunto
Carácter de barra vertical (operador de cadena %>%) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Implementar pasar la salida de una función a la siguiente función como entrada a la siguiente función
Salida de tecla de método abreviado ctrl + shift + M disponible
Cálculos matemáticos sobre tramas de datos - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
suma de filas sumas de filas()
rs <- rowSums(worldphones)
total <- cbind(worldphones,Total = rs) #añadir esta línea
Columna Significa colMeans()
cm<- colMeans(worldphones)
apply() es más versátil, así que úsalo
aplicar (worldphones, MARGEN = 1, DIVERSIÓN = suma)
MARGEN: 1 representa el procesamiento de filas, 2 representa el procesamiento de columnas
lapply() devuelve una lista
sapply() devuelve un vector/matriz
tapply() procesa datos de factores, los agrupa por factor y luego los procesa
tapply(estado.nombre, estado.dicisión, DIVERSIÓN = longitud)
Centralización y estandarización de datos - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Función: elimina el impacto de las dimensiones en los datos, haciendo que la diferencia entre los datos sea más pequeña
centralizado
Los datos en el conjunto de datos menos la media del conjunto de datos
x-media(x)
Estandarización
Después de centrar el conjunto de datos, se divide por la desviación estándar del conjunto de datos
x-media(x) / sd(x)
Centralización + Estandarización
escala(x,centro = T, escala = T)