Data analysis data feature analysis

1. Distribution analysis
1. Quantitative data:

对定量数据而言,选择"组数""组宽"是进行分布分析时最重要的问题,一般按以下步骤进行:
①求极差
②决定组距与组数
③确定分点
④列出频率分布表
⑤绘制频率分布直方图
要求:
①各组间是互斥的
②每个数据点都包含在某组中
③各组的组宽应尽可能相等

2. Qualitative data:

对定性数据而言,常依据某个属性的不同值分组,绘制成饼图或条形图

2. Comparative analysis

分为"绝对数比较""相对数比较"

3. Statistics analysis
1. Central tendency measurement:

平均水平的指标是对数据集中趋势的度量,包括"均值"/"中位数"/"众数"(多用于定性数据)

2. Departure trend measurement:

反映变异程度的指标则是对数据离中趋势的度量,包括"标准差"/"四分位间距"/"极差"/"变异系数"

4. Periodic analysis

V. Correlation analysis
1. Draw a scatter plot
(1) a single scatter plot:
Insert picture description here
(2) scatter plot matrix:

考察多个变量间的相关性时,可利用散点图矩阵同时绘制任意2个变量间的散点图,从而快速发现多个变量间的主要相关性.这在多元线性回归中十分重要

Insert picture description here
2. Correlation coefficient:

在二元变量的相关分析过程中常用的相关系数包括:"Pearson相关系数"(Pearson Correlation Coefficient),"Spearman秩相关系数"(
Spearman's Rank Correlation Coefficient)"判定系数"(Coefficient of Determination)

Guess you like

Origin blog.csdn.net/weixin_46131409/article/details/113357807