统计分析之为什么需要统计

● 每周一言

心中有数,才能气定神闲。

导语

从本周起,小斗开始写统计分析相关的文章。

特征的优劣直接决定了模型是否奏效,而特征提取的关键则是充分理解数据。一名优秀的算法工程师,一定先是一名优秀的统计(跑数)工程师。那么,我们为什么需要统计?

统计

看过三国演义应该知道,诸葛亮排兵布阵时经常这样说:关羽听令!给你三千精兵,从左路包抄曹军;张飞听令,给你五千精兵,从右路包抄曹军……由此可知,诸葛亮打仗,必定已经掌握了己方有多少将领,多少精兵,多少残兵,多少粮草以及战地相关的地势地形等。

fig1

做算法也是同样的道理。

拿到数据,切忌先动模型。如果不看数据不分析数据就直接上模型,好比诸葛亮当军师的第一天就随便拨点士兵操练八卦阵。只有看过数据,理解数据,才能提取出行之有效的规则和特征。理解数据好比打地基,只有地基牢固,才能建好大楼。在不了解数据的情况下,直接加特征上模型,很可能适得其反。

fig2

拿到数据,先统计各种数量。比如,样本总量,不同类别的数量等。了解了各种数据量级,能给模型的训练时间作参考,还能指导设置一些训练参数,比如epoch和validation step。当不同类别样本数量差别较大时,还能提前采取一些针对样本不均衡的策略。

拿到数据,要看看特征的分布情况。因为特征分布的统计结果,往往与我们直观的理解不完全一致。比如某一个特征在直观理解上和目标label看起来呈现正相关,其实在统计指标上截然相反。

除此此外,在做特征无量纲化的时候,也得先看看分布。比如标准化要求特征分布必须服从正态分布或偏正态分布,连续特征分箱时也需要根据特征分布来确定如何等频等宽。

fig3

拿到数据,抽样分析具体样本情况。想真正理解数据,就必须对数据进行充分的细节剖析。比如可以假定自己就是当前分析的样本,设身处地的理解这个样本的行为特征,以及为何如此的原因。只有这样才能真正掌握数据意图,达到知己知彼。

拿到数据,特征工程必不可少。统计分析的目的说到底还是为了做好特征工程,因此在正常情况下,上模型前除了必要的统计分析,不能少了特征工程。

fig4

总之,在上算法模型之前先把统计分析做足做全了,才能像诸葛亮带兵打仗一样,做到胸中百策,游刃有余。

以上便是统计分析的开篇讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

猜你喜欢

转载自blog.csdn.net/cherrylvlei/article/details/81151391