Análisis de datos de aplicaciones de Google Play Store

1. Propósito del análisis: guiar la dirección comercial a través del análisis de datos de la aplicación de Google Play Store

 

2. Datos

Marco de importación

Importar datos

Esta vez solo analice 'Aplicación', 'Categoría', 'Calificación', 'Reseñas', 'Tamaño', 'Instalaciones', 'Tipo'

Simplemente explore los datos

Ver el número de rangos

Ver la cantidad de datos no nulos para cada columna

Hay muchos valores faltantes que deben limpiarse

 

3. Limpieza de datos

Procesamiento de aplicaciones

Verificar valores duplicados

Si hay valores duplicados, no se preocupe por eliminar primero los valores duplicados. Para no dejar valores atípicos en otras columnas, trate las columnas con valores anormales

Procesamiento de categoría

Hay un valor atípico

Eliminar

Procesamiento de calificación

Rellenar con promedio

Hay un registro de excepción con un valor de 19, que es el mismo registro que la excepción de la categoría

ComentariosLimpieza

Use value_counts para ver que la distribución de datos es muy amplia, parece datos

Limpieza de tamaño

Convertir a punto flotante

Tamaño de relleno 0 al promedio

Instala limpieza

Menos distribución, reemplazo directo

Convertir

Procesamiento de tipo

df.info () ve que hay un valor na, aquí necesita un parámetro dropna

 Eliminar estos datos

Después de la limpieza de datos, comience a analizar los datos.

 

4. Procesamiento y análisis de datos.

Datos de categoría

Numero de categorias

El número de aplicaciones en cada categoría, ordenando, puede averiguar qué categorías de aplicaciones son las más populares entre los desarrolladores

Clasificación ordenada del volumen de instalación: los usuarios más necesitan las categorías sociales y de entretenimiento

Datos de comentarios clasificados: más reseñas de juegos sociales

Los datos de puntuación clasificados no son consistentes con otros datos y necesitan un análisis más detallado.

Escribir datos

La proporción de lo gratuito es grande, la proporción de lo pagado es pequeña, y lo gratuito sigue siendo la corriente principal

Análisis de categoría y tipo juntos

Relación de instalación de comentarios

Relevancia: El número de comentarios está fuertemente relacionado con el número de instalaciones. Otros ni siquiera son 0.1, y pueden considerarse irrelevantes (más de 0.5 pueden considerarse relevantes, y más de 0.3 pueden considerarse débilmente relevantes)

 

Supongo que te gusta

Origin www.cnblogs.com/daisyxxx/p/12682827.html
Recomendado
Clasificación