第一章 :数据分析是什么
- 数据分析:用适当的统计分析方法对收集来的大量数据进行分析。总结研究对象内在规律。数据分析能够帮助管理者进行判断和决策,以便采取适当策略和行动。
- 数据分析作用:现状分析,原因分析,预测分析。
- 数据分析六部曲:明确 分析目的和思路,数据收集,数据处理,数据分析,数据展现,报告撰写。
数据分析过程:
明确分析目的&内容
数据收集(数据库;互联网;公开出版物;市场调查)
数据处理(清洗;转化;提取;计算)(有效性;可分析性;一致性)
数据分析(excel;spss)
数据展现(表格;图形)
报告撰写(明确的结论&建议&解决方案) - 数据挖掘侧重解决四类数据分析 问题:分类,聚类,关联和预测,重点在与寻找模式与规律。
- 绝对数:反映客观现象总体在 一定时间、地点下的总规模、总水平的综合性指标,如gdp,总人口。
- 相对数:两个有联系指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。(频数是绝对数,频率,比例和比率是相对数)
- 同比(历史同时期比较:2012.4/2013.4)&环比(与之前相比:2013.4/2013.5)
- 字段:事物或现象的某种特征,如姓名、分数,统计学中称为变量。
记录:具体表现,如王小明、男、89,也成为数据/变量值。
2. 确定分析思路
数据分析方法论:主要用来指导数据分析师进行一次完整的数据分析,更多的是指数据分析思路。从宏观角度指导如何进行数据分析。
数据分析法:指具体的分析方法。
常见的数据分析方法论:
- PEST分析法:用于对宏观环境的分析。宏观环境指影响一切行业和企业的各种宏观力量。包括政治(political)、经济(economic)、技术(technological)、社会 (social)。
主要用于行业分析。
- 5W2H分析法:是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(why)、何事(what)、何时(when)、何地 (where)、如何做(how)、何价(how much)。可以用于分析用户购买行为。
主要用于用户行为分析、业务问题专题分析。
- 逻辑树分析法:将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。使用必须遵循要素化,框架化,关联化。
主要用于业务问题专题分析。
4P营销理论:营销组合可以概括为:产品(product),价格(price),渠道(place),促销(promotion)。
用于用户行为研究分析。
主要用于公司整体经营情况分析。用户行为理论:用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。
网站分析有一套成熟的分析指标:IP、PV、页面停留时间、跳出率、回访率、新访问者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登录率。
结合起来可以得出用户的网站行为:网站访问、网站浏览、站内搜索、用户注册、用户登录、用户订购、用户粘性、用户流失。
就是用于用户行为研究分析。
3.数据准备
- 导入数据:导入文本数据,导入网页数据
4.数据处理
1.处理重复值:
函数法:countif
高级筛选法
条件格式法
数据透视表法
2.删除重复数据
通过菜单操作删除
通过排序删除重复项
通过筛选删除重复项
4.2缺失值处理
全选所有空值:开始+编辑+空值定位
缺失值处理:
1.用样本统计量值代替
2.模型统计计算出值代替
3.删除
查找替换
检查数据逻辑错误
利用if函数检查错误
利用条件格式标记错误
4.3 数据加工
数据抽取
1.字段分列
2.函数法left.rjght
3.字段合并concatenate
4.字段匹配
4.3.2 数据计算
1.函数计算
4.3.3 数据分组
vlookup 函数
4.3.4 数据转换
数据表的行列转换
4.5 数据抽样
RAND函数