《谁说菜鸟不会数据分析 入门篇》学习笔记

前言
最近疫情原因,在家准备把从图书馆借的书都看看,好好为将来做准备。这本书主要是EXCEL的操作,对于使用要求不高的我,感觉够用了。毕竟是入门篇,我感觉是跟数据分析的关系不太紧密,更多的是应该这么做,这种指导性的语言和EXCEL的操作,还有一些基本的函数

提醒

  1. 从网站上下载的有些excel版本过低,有些书中的操作不能进行,就别跟我似的瞎着急了。需要先另存为“excel工作簿”。
  2. 斜体表示将书中已经过时的描述替换为应该的操作。

相关数据案例下载方式(包括标签工具JWalk Chart Tools)

cha1 数据分析总观

  1. 数据分析
    目的:提炼数据背后的信息,总结研究对象的内在规律
    分类:描述性、探索性、验证性
    方法步骤:明确分析目的和思路、数据收集、数据处理(数据清洗、数据转化、数据提取、数据计算)、数据分析、数据展现(图表)、报告撰写(框架,明确的结论,建议解决方案)
    数据挖掘:高级的数据分析方法,解决“分类、聚类、关联和预测”,寻找模式与规律

  2. 常用术语
    频数:数据中个别数据重复出现的次数
    频率:每组类别次数与总次数的比值

    比率:不同类别数值的对比,反映整体中各部分之间的关系
    比例:总体中各部分数值占全部数值的比重

    番数:原来数量的2的N次方倍

    同比:与历史同期比较得到的数值
    环比:与前一个统计期比较得到的数值

cha2 分析思路

分析方法

PEST分析法 5W2H 逻辑树 4P 用户行为理论
宏观环境的分析 营销 网站分析
Politicial Economic Social Technological What Why Who When Where How How much Product Price Place Promotion 认知-熟悉-试用-使用-忠诚

cha3 数据准备

  1. 字段:事物或现象的某种特征,是变量。
  2. 记录:事物或现象某种特征的具体表现,是数据或变量值
  3. 数据表:数据透视表
    添加到选项卡 page55
    导入数据表 page58
    导入文本数据:“数据”选项卡-“获取外部数据”选项 注意选择合适的“分隔符号”或者固定宽度(分割人名)

cha4 数据处理

  1. 数据清洗
    (1)重复数据的处理
    ① page71 COUNTIF(range, criteria)
    //对区域中满足单个特定条件的单元格进行计数(要技术的单元格范围,计算条件)
    高级筛选-不重复
    条件格式-突出显示
    ④ 数据透视表:行标签(编号),数值(计数项:编号)
    (2)删除重复数据
    ① 数据-数据工作组-删除重复项
    // ② 筛选-自定义筛选
    (3)缺失值的处理
    ctrl+enter”在不连续的区域中同时输入一个数据或公式
    (4)检查数据逻辑错误
    ① page81 IF(logical_test, value_if_true, value_if_false)
    <>0 表示不等于0
    ② page82 OR(logical1, [logical2], …)
    AND(logical1, [logical2], …)

  2. 数据加工
    ① 数据抽取 LEFT(text, [num_chars])//得到字符串左部指定个数的字符(包含要提取的文本字符串,指定提取的字符数量)
    RIGHT(text, [num_chars])
    ② 字段合并 CONCATENATE(text1, text2, …)
    ③ 字段匹配 VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)//在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容(在表格的第一列中查找的值,包含的单元格区域,希望返回的匹配值的序号,近似匹配1还是精确匹配0),默认是近似匹配

  3. 数据计算
    TODAY()//动态日期或时间
    NOW()//静态日期或时间

    DATE(year, month, day)//返回某指定日期
    YEAR(serial_number)
    MONTH(serial_number)
    DAY(serial_number)

    DATEIF(start_date, end_date, unit)//返回两个日期之间的年/月/日间隔数
    unit: y/m/d/md/ym/yd 后三个是忽略没写的哪个时间

  4. 数据分组 VLOOKUP

  5. 数据转换
    ① 选择性粘贴-转置
    VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)//在表格的首行查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容
    ISNUMBER(text)//返回1/0
    SEARCH(find_text, within_text, start_num)//在表格的首行查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容

  6. 数据抽样
    RAND()//返回[0,1]之间的数
    INT()//取整

cha5 数据分析

对比分析 分组分析 结构分析 交叉分析
两个或以上数据的比较 总体内部的分组 总部的各部分和总体的对比 两个变量之间的关系
分析差异,事物发展变化和规律 内在联系和规律性 总体占各部分的比例
静态/动态,横比/纵比 相对指标 交叉表
综合评价分析 杜邦分析 漏斗图分析 矩阵关联分析
多个指标 利用内在联系 流程长,环节多 两个指标
数据标准化([0,1]),权重确定(目标优化矩阵) 金字塔形结构 两个象限分四个格

page131 数据分组统计 step04 单机鼠标右键-组合

cha6 数据展现

电梯法则:让领导在30秒内读懂数据
数据间关系:成分、排序、时间、频率分布、相关性(数据间关系)、多重数据比较

饼图 条形图 柱状图 折线图 散点图 表格 雷达图
成分 成分、排序 、频率分布、相关性 成分、排序、时间 、频率分布、相关性 时间、频率分布 相关性 多重数据比较
  1. 样式-条件格式 可以:突出显示、项目选取(项目选取规则)、数据条、图标集、迷你图
  2. 复杂图表
    平均线图:添加一列平均值数据
    双坐标图:设置数据系列格式-次坐标轴
    占位数据:将实际数据隔开的数值为0数据
    竖形折线图:选择数据-选择数据源-添加(辅助列)
    瀑布图:计算占位数据 第n个数据=总成本-前n个成本的和
    帕累托图:柱状图+折线图
    旋风图:调整数值区间、格式代码修改(不显示负值)、逆序刻度值、坐标轴标签(低)
    漏斗图:占位数据、转化率
    page173 漏斗外框:设计-添加图表元素-线条-系列线
    散点图:调整坐标轴值、发展矩阵图(添加、删除线条)

cha7 图标的美观

原则: 严谨、简约、美关
图表的元素:标题、图例、单位、脚注(数据的原因)、资料来源
注意事项:

  1. 饼图:无图例(直接用标签)、不用3D效果、白色边框线、不超过5个部分(二维饼图)
  2. 最大数据墨水比
  3. 颜色搭配: 暖色调(冬春季度)
  4. 修建超大值

cha8 专业的报告

感觉毕设的PPT展示可以参考一下这部分的例子

发布了20 篇原创文章 · 获赞 6 · 访问量 4635

猜你喜欢

转载自blog.csdn.net/better_eleven/article/details/104570490