1. Propósito del análisis: guiar la dirección comercial a través del análisis de datos de la aplicación de Google Play Store
2. Datos
Marco de importación
Importar datos
Esta vez solo analice 'Aplicación', 'Categoría', 'Calificación', 'Reseñas', 'Tamaño', 'Instalaciones', 'Tipo'
Simplemente explore los datos
Ver el número de rangos
Ver la cantidad de datos no nulos para cada columna
Hay muchos valores faltantes que deben limpiarse
3. Limpieza de datos
Procesamiento de aplicaciones
Verificar valores duplicados
Si hay valores duplicados, no se preocupe por eliminar primero los valores duplicados. Para no dejar valores atípicos en otras columnas, trate las columnas con valores anormales
Procesamiento de categoría
Hay un valor atípico
Eliminar
Procesamiento de calificación
Rellenar con promedio
Hay un registro de excepción con un valor de 19, que es el mismo registro que la excepción de la categoría
ComentariosLimpieza
Use value_counts para ver que la distribución de datos es muy amplia, parece datos
Limpieza de tamaño
Convertir a punto flotante
Tamaño de relleno 0 al promedio
Instala limpieza
Menos distribución, reemplazo directo
Convertir
Procesamiento de tipo
df.info () ve que hay un valor na, aquí necesita un parámetro dropna
Eliminar estos datos
Después de la limpieza de datos, comience a analizar los datos.
4. Procesamiento y análisis de datos.
Datos de categoría
Numero de categorias
El número de aplicaciones en cada categoría, ordenando, puede averiguar qué categorías de aplicaciones son las más populares entre los desarrolladores
Clasificación ordenada del volumen de instalación: los usuarios más necesitan las categorías sociales y de entretenimiento
Datos de comentarios clasificados: más reseñas de juegos sociales
Los datos de puntuación clasificados no son consistentes con otros datos y necesitan un análisis más detallado.
Escribir datos
La proporción de lo gratuito es grande, la proporción de lo pagado es pequeña, y lo gratuito sigue siendo la corriente principal
Análisis de categoría y tipo juntos
Relación de instalación de comentarios
Relevancia: El número de comentarios está fuertemente relacionado con el número de instalaciones. Otros ni siquiera son 0.1, y pueden considerarse irrelevantes (más de 0.5 pueden considerarse relevantes, y más de 0.3 pueden considerarse débilmente relevantes)