数据科学家必须了解的事:中心极限定理

全文共1222字,预计学习时长4分钟

来源:Pexels

数据科学家必须了解的事:中心极限定理。你了解吗?

编码之前,快速回顾

今天,我想重构中心极限定理(CentralLimit Theorem),以及该定理与数据科学家的大量工作之间的关系。

回顾直方图

首先,对于任何数据科学家来说,核心工具都是直方图——一种非常简单的图表。虽然我们肯定会看到许多直方图,但经常会忽略它的重要性。直方图的核心目的是了解给定数据集的分布。

直方图表示在x轴上找到的变量,其不同值在y轴上出现的次数。

这是一个示例,如果想了解数据集里面每加仑汽油行驶的英里数在汽车总数中的分布。在这里使用 mtcars 数据集,可以在图表的右侧看到一条尾巴,这种直方图就是所谓的右偏。这背后传达的概念是:有些汽车的油耗极高,但这些汽车很少。

标准正态分布

与刚才看到的类似,经典分布是正态分布,也叫钟形曲线或标准正态分布。其核心概念是事件的“分布”是“对称的”。

下面的直方图与之前的图类似,而这里的更加对称。

中心极限定理究竟是什么?

中心极限定理指出,样本均值的分布应近似正态。

实践中的定理

请看下面的例子:假设你在大学工作,并且想了解校友离开学校第一年的收入分配情况。

事实是你将无法向每个校友收集该数据点。或者,你可以对总体进行多次采样,以获取每个“样本”的单独样本均值。

现在,通过直方图绘制样本均值,可以看到正态分布的出现。

这里的关键要点是,即使输入变量不是正态分布的,采样分布也将近似于标准正态分布。

编码!

作为该想法的最后一个演示,首先从mtcars数据集里得出并绘制了MPG的分布。在这里,为每个mpg样本划分一个向量,遍历50个样本。每个样本取数据集里10条随机记录的平均值。再次将它们绘制为直方图,这样可以看到正态分布出现。

mpg_samples <-c()for(i in 1:50){mpg_samples [i] =平均值(sample(mtcars $ mpg,10,replace = TRUE)))} hist(mpg_samples,col ='purple',xlab =“ MPG ”)

中心极限定理作为数据科学培训中的基础概念。该定理是假设检验、实验以及其他数据科学方法和技术的基础。

也是你必须了解和掌握的事物。

来源:Pexels

感谢阅读,希望本文对你有所帮助!

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

发布了896 篇原创文章 · 获赞 2856 · 访问量 52万+

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/104816276
今日推荐