机器学习的具体算法(6)--数据分析

数据分析

数据分析的流程

1)问题定义
2)数据获取
3)数据预处理
4)数据分析与建模
5)数据可视化及数据报告的撰写”

数据分析的方法

1.贡献度分析

  贡献度分析又称帕累托分析,它的原理是帕累托法则又称2/8定律。即累积效应达80%的前几个因素。

2.统计量分析

  用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
1) 集中趋势度量:
  均值;中位数;众数。
  
2)离中趋势度量:
  极差;标准差;变异系数;四分位数间距。

3.定量数据的分布分析

  对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行。
1)求极差。
2)决定组距与组数。
3)决定分点。
4)列出频率分布表。
5)绘制频率分布直方图。

  遵循的主要原则如下。
1)各组之间必须是相互排斥的。
2)各组必须将所有的数据包含在内。
3)各组的组宽最好相等。

  对于定性变量,常常根据变量的分类类型来分组,可以采用饼形图和条形图来描述定性变量的分布。

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/81334188
今日推荐