读书笔记之谁说菜鸟不会数据分析 (1)

第一章 :数据分析是什么

  1. 数据分析:用适当的统计分析方法对收集来的大量数据进行分析。总结研究对象内在规律。数据分析能够帮助管理者进行判断和决策,以便采取适当策略和行动。
  2. 数据分析作用:现状分析,原因分析,预测分析。
  3. 数据分析六部曲:明确 分析目的和思路,数据收集,数据处理,数据分析,数据展现,报告撰写。
    数据分析过程:
    明确分析目的&内容
    数据收集(数据库;互联网;公开出版物;市场调查)
    数据处理(清洗;转化;提取;计算)(有效性;可分析性;一致性)
    数据分析(excel;spss)
    数据展现(表格;图形)
    报告撰写(明确的结论&建议&解决方案)
  4. 数据挖掘侧重解决四类数据分析 问题:分类,聚类,关联和预测,重点在与寻找模式与规律。
  5. 绝对数:反映客观现象总体在 一定时间、地点下的总规模、总水平的综合性指标,如gdp,总人口。
  6. 相对数:两个有联系指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。(频数是绝对数,频率,比例和比率是相对数)
  7. 同比(历史同时期比较:2012.4/2013.4)&环比(与之前相比:2013.4/2013.5)
  8. 字段:事物或现象的某种特征,如姓名、分数,统计学中称为变量。
    记录:具体表现,如王小明、男、89,也成为数据/变量值。

2. 确定分析思路

数据分析方法论:主要用来指导数据分析师进行一次完整的数据分析,更多的是指数据分析思路。从宏观角度指导如何进行数据分析。

数据分析法:指具体的分析方法。
常见的数据分析方法论:

  • PEST分析法:用于对宏观环境的分析。宏观环境指影响一切行业和企业的各种宏观力量。包括政治(political)、经济(economic)、技术(technological)、社会 (social)。

主要用于行业分析。

  • 5W2H分析法:是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(why)、何事(what)、何时(when)、何地 (where)、如何做(how)、何价(how much)。可以用于分析用户购买行为。

主要用于用户行为分析、业务问题专题分析。

  • 逻辑树分析法:将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。使用必须遵循要素化,框架化,关联化。

主要用于业务问题专题分析。

  • 4P营销理论:营销组合可以概括为:产品(product),价格(price),渠道(place),促销(promotion)。

    用于用户行为研究分析。
    主要用于公司整体经营情况分析。

  • 用户行为理论:用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。

    网站分析有一套成熟的分析指标:IP、PV、页面停留时间、跳出率、回访率、新访问者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登录率。

结合起来可以得出用户的网站行为:网站访问、网站浏览、站内搜索、用户注册、用户登录、用户订购、用户粘性、用户流失。

就是用于用户行为研究分析。

3.数据准备

  1. 导入数据:导入文本数据,导入网页数据

4.数据处理

1.处理重复值:
函数法:countif
高级筛选法
条件格式法
数据透视表法

2.删除重复数据
通过菜单操作删除
通过排序删除重复项
通过筛选删除重复项

4.2缺失值处理

全选所有空值:开始+编辑+空值定位
缺失值处理:
1.用样本统计量值代替
2.模型统计计算出值代替
3.删除
查找替换

检查数据逻辑错误
利用if函数检查错误
利用条件格式标记错误

4.3 数据加工

数据抽取
1.字段分列
2.函数法left.rjght
3.字段合并concatenate
4.字段匹配

4.3.2 数据计算

1.函数计算

4.3.3 数据分组

vlookup 函数

4.3.4 数据转换

数据表的行列转换

4.5 数据抽样

RAND函数

猜你喜欢

转载自blog.csdn.net/wuhuimin521/article/details/80721465