google play store的app数据分析

1.分析目的:通过google play store的app数据分析进行业务方向指导

2.数据

导入框架

导入数据

这次只分析'App' ,'Category' ,'Rating' ,'Reviews' ,'Size' ,'Installs' ,'Type'

简单浏览下数据

查看行列数量

查看各个列的非空数据量

有很多缺失值,需要清洗

3.数据清洗

App处理

查看有没有重复值

有重复值,先不着急删除重复值,为了不把其他列的异常值留下,先处理数值异常的列

Category处理

有一条异常值

删除

Rating处理

用平均值填充

有一条值是19的异常记录,和Category的异常是同一条记录

Reviews清洗

用value_counts看数据分布挺广,看起来都是数据

Size清洗

转换成浮点型

将Size为0的填充为平均数

Installs清洗

分布比较少,直接替换

转换

Type处理

df.info() 查看到有na值,这里需要dropna参数

 删除这条数据

数据清洗完毕,开始分析数据

4.数据处理和分析

分Category的数据

分类的个数

每个分类的App数量,排序,可以得出哪些分类的app最受开发者欢迎

分类的安装量排序:娱乐社交类最被用户需要

分类的评论数据:社交游戏评论多

分类的打分数据,和其他数据不太一致,需要进一步分析

分Type数据

免费占比大,付费占比小,免费仍然是主流

Category和Type一起分析

评论安装比

相关性:评论数和安装数强相关,其他的连0.1都不到,可以认为是不相关的(0.5以上可以认为是相关的,0.3以上可以认为是弱相关)

猜你喜欢

转载自www.cnblogs.com/daisyxxx/p/12682827.html