版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/leprovision/article/details/74194788
一.数据分析所具备的知识和技能?
1.计算机基础 2.数学和统计知识 3.业务相关的
二.数据科学家的分类
1.数据开发 2.数据检测分析 3.数据挖掘 4.数据商人
三.完整的数据分析流程
1.定义研究问题,定义理性的数据集,确定能够获取什么数据,获取数据,清理数据
2.探索性分析(数据可视化),统计分析、建模(机器学习)等
3.解释/交流的结果(数据可视化),挑战结果(有没有其他的可能?)
书写报告(reproduccible原则)
假设驱动:是对于事实来假设
数据驱动:提出一写假设,再去分析
四.数据基础
观测 :例如是MySQL里的一条数据,也就是具体的数。
变量 :例如是MySQL里的一个字段
变量的类型可分为:数值(连续,离散)可以进行加减乘除,求平均等运算 和 分类(无序,有序)取值空间有限,不能进行运算两种
变量之间的关系(对应不同的可视化方法和统计分析方法)
两个数值之间
........
........
数值变量
数据集中趋势的测量(均数,中位数,众数)
均值:是指平均数
中位数:是指排序后正中间的一个数,如果是偶数的话就是两个中间数的平均值
众数:出现次数最多的数
数据的分散趋势的测试(值域,方差,标准差,四方位距)
数据矩阵:整块的数据
数据可视化:
一个数值的变量:柱状图,点图,箱图
另个熟知的变量:散点图
分类变量
一个分类变量:频率表,条形表
两个分类变量:关联表,相对频率表,分段条形表,相对频率分段条形表,马赛克表
一个分类变量,一个数值变量:并排箱图
1.计算机基础 2.数学和统计知识 3.业务相关的
二.数据科学家的分类
1.数据开发 2.数据检测分析 3.数据挖掘 4.数据商人
三.完整的数据分析流程
1.定义研究问题,定义理性的数据集,确定能够获取什么数据,获取数据,清理数据
2.探索性分析(数据可视化),统计分析、建模(机器学习)等
3.解释/交流的结果(数据可视化),挑战结果(有没有其他的可能?)
书写报告(reproduccible原则)
假设驱动:是对于事实来假设
数据驱动:提出一写假设,再去分析
四.数据基础
观测 :例如是MySQL里的一条数据,也就是具体的数。
变量 :例如是MySQL里的一个字段
变量的类型可分为:数值(连续,离散)可以进行加减乘除,求平均等运算 和 分类(无序,有序)取值空间有限,不能进行运算两种
变量之间的关系(对应不同的可视化方法和统计分析方法)
两个数值之间
........
........
数值变量
数据集中趋势的测量(均数,中位数,众数)
均值:是指平均数
中位数:是指排序后正中间的一个数,如果是偶数的话就是两个中间数的平均值
众数:出现次数最多的数
数据的分散趋势的测试(值域,方差,标准差,四方位距)
数据矩阵:整块的数据
数据可视化:
一个数值的变量:柱状图,点图,箱图
另个熟知的变量:散点图
分类变量
一个分类变量:频率表,条形表
两个分类变量:关联表,相对频率表,分段条形表,相对频率分段条形表,马赛克表
一个分类变量,一个数值变量:并排箱图