核密度估计需要了解什么是概率密度函数,什么是频率分布直方图。
1.频率分布直方图
频率分布直方图并不是我们通常观念上的y轴为数量,x轴为种类。其实它的由来是有一段的过程的。设我们有一些点{170,172,193,184,182,171,181}
我们画出的频率分布直方图
首先我们要设定bin的长度即每个长条的宽度,设定起始的位置(范围),可能会出现疑惑,起始位置关图形状什么事情,稍后就会知道它由于边界的问题会导致某些数据划分到不同的bin中去。
#统计数据(按照个数)
观察数据的范围从170到193,我们从170开始到195,bin的宽度为5(下列三张图的范围都是170-195,由于excel的原因调整不了,将就看)
如果我们把箱子的长度改变为10
扫描二维码关注公众号,回复:
9602926 查看本文章
可以看到图像由3峰变为单峰。我们再把箱子长度设置为30(整个区间长度)我们可以看到成为了一个方块
箱子的宽度影响了图形的形状,所以bin的宽度过小会使得图像过于尖锐,bin的宽度过大会模糊掉图像,上图就是一个极端,不利于看出其具体的分布
再有就是它同样受短点值的影响,由于每一个箱子的划分是