描述统计的基本思维

** 描述统计的基本思维
数据获取后需要对数据进行处理。通常的数据处理包括分组,聚集度分析,离散化分析,峰度偏度分析,数据可视化。
1、分组一般分为按照性质行进分组和按照数量进行分组
2、聚集度分析包含众数、中位数、平均数。其中平均数数使用频率最高,但是当数据存在较大的偏移时,平均数并不能很好的反映数据的真实情况,这个时候可以考虑使用中位数。例如,通常情况下人均收入会出现明显的右偏,富人的收入会拉高人群的平均收入,所以平均收入并不能很好的反映现实情况。这个时候可以考虑使用中位数。众数使用的频次较低,并且众数有的时候并不存在。考虑到平均数能够最大量的反映所有的数据信息,在出现数据偏移的情况下,可以考虑使用去尾平均数,去掉数据集的前后同样数量的偏移数据。另外,在计算金融产品的收益平均增长率,GDP平均增长率时由于每年的增长率是基于上一年的数据为基计算的,所以这些情况下的平均数用几何平均数。
3、离散化分析主要包括方差和标准差。在使用样本数据时,我们通常是考虑使用样本数据的方差去估计真实数据的方差,通过数学推理,可以得出样本数据的方差计算公式的分母为(n-1),这样计算出来的方差为真实数据的无偏估计。金融产品中常用标准差来衡量理财产品的风险。通常标准差大的产品,收益率变化幅度大,很容易出现负收益,所以在收益均值相同的情况下,可以考虑购买标准差小的产品。
4、数据集不是正太分布时,需要计算偏度和峰度。
5、数据做完基本的描述处理后可以通过Excel实现可视化。利用Excel的制图和统计描述,合理的展示数据。例如,通常可以用金字塔展示人口随时间的变化。茎叶图,盒子图等随着计算机的发展也能很好的展示数据,是不错的选择。
最后需要说明的是数据分析非常容易出现错误。例如辛普森悖论,这和数据分析时没有考虑分组权重及各个组的数据情况有关。另外,制图过程中不合理的使用坐标标量等也很容易出现错误的结论。这些需要结合实际业务做出合理的修正。

**

猜你喜欢

转载自blog.csdn.net/weixin_43648074/article/details/88385228