R语言大体概括。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/leprovision/article/details/74194788
一.数据分析所具备的知识和技能?
1.计算机基础  2.数学和统计知识  3.业务相关的


二.数据科学家的分类
1.数据开发  2.数据检测分析    3.数据挖掘  4.数据商人


三.完整的数据分析流程
1.定义研究问题,定义理性的数据集,确定能够获取什么数据,获取数据,清理数据
2.探索性分析(数据可视化),统计分析、建模(机器学习)等
3.解释/交流的结果(数据可视化),挑战结果(有没有其他的可能?)
  书写报告(reproduccible原则)
假设驱动:是对于事实来假设
数据驱动:提出一写假设,再去分析

四.数据基础

观测 :例如是MySQL里的一条数据,也就是具体的数。     
变量 :例如是MySQL里的一个字段   
变量的类型可分为:数值(连续,离散)可以进行加减乘除,求平均等运算    和    分类(无序,有序)取值空间有限,不能进行运算两种
变量之间的关系(对应不同的可视化方法和统计分析方法)
两个数值之间
........
........
数值变量
数据集中趋势的测量(均数,中位数,众数)
均值:是指平均数
中位数:是指排序后正中间的一个数,如果是偶数的话就是两个中间数的平均值
众数:出现次数最多的数


数据的分散趋势的测试(值域,方差,标准差,四方位距)
数据矩阵:整块的数据


数据可视化:
一个数值的变量:柱状图,点图,箱图
另个熟知的变量:散点图
分类变量
一个分类变量:频率表,条形表
两个分类变量:关联表,相对频率表,分段条形表,相对频率分段条形表,马赛克表
一个分类变量,一个数值变量:并排箱图

猜你喜欢

转载自blog.csdn.net/leprovision/article/details/74194788