【校招面经】统计与概率基础（持续更新中）

注：以下是本人春招时看面经时收集的常见面试题，答案部分是由网上多个信息源整理而成，部分是个人解答。当时整理时只是自己看的，很多没有注明来源地址，后续有时间补上来源，如有侵权请告知。

一、p值的含义

其实理解起来很简单，基本原理只有3个： 1、一个命题只能证伪，不能证明为真 2、在一次观测中，小概率事件不可能发生 3、在一次观测中，如果小概率事件发生了，那就是假设命题为假

证明逻辑就是：我要证明命题为真->证明该命题的否命题为假->在否命题的假设下，观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。

结合这个例子来看：证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件（比如A连续10次投中10环），而这个事件在“A不是合格投手”的假设下，概率为p，小于0.05->小概率事件发生，否命题被推翻。

可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信

---------------------

这个过程实际上和人脑的做判断的过程很相似

作者：吉米多维奇

链接：https://www.zhihu.com/question/23149768/answer/31704861

二、协方差和相关性有什么区别？

相关性是协方差的标准化格式。协方差本身很难做比较。例如：如果我们计算工资（$）和年龄（岁）的协方差，因为这两个变量有不同的度量，所以我们会得到不能做比较的不同的协方差。

为了解决这个问题，我们计算相关性来得到一个介于-1和1之间的值，就可以忽略它们各自不同的度量。

三、相关系数与余弦相似度

数学公式：

两个向量（x1,x2,x3）(y1,y2,y3)

求内积a・b = cos <a, b> |a| |b| = x1*y1+x2*y2+x3*y3

==========================================

有两个向量，我们希望定义它们是不是相关。一个很自然的想法，用向量与向量的夹角来作为距离的定义，夹角小，就“距离”小，夹角大，就“距离”大。

==========================================

step1：

两个向量的夹角的余弦，就叫做“相关系数”，cos <a, b> =(a・b)/|a||b|，写开了就是：

余弦=相关系数；内积=协方差

step2：

回到正题上来，我就简称cos和pearson吧。如果把向量中心化之后，这两个就是一个东西了，什么叫中心化，就是每个数减去均值。这个要不要中心化有啥影响呢。就是这篇文章里的这个例子，比如两个用户对商品评价的变化趋势其实是一样的，但是一个用户倾向于总体给低分，一个用户倾向于总体给高分，这时用cos可能就有问题了，这就是为什么有人说计算cos的时候要先把数据中心化。

举个简单的例子帮助理解吧。比如有两个2维向量，x=(1, 2)和y=(3, 5)，很明显y是由x通过线性变换得到的，pearson相关系数应该为1，但是这两个点肯定不在一条过原点的直线上，因此它们夹角的cos肯定不是1。但是中心化之后，x=(0.5, 0.5)，y=(1, 1)，这就在一条过原点的直线上了。

四、相关系数的快速计算

cov(x,y)=EXY－EX*EY

　　协方差的定义，EX为随机变量X的数学期望，同理，EXY是XY的数学期望，挺麻烦的，建议你看一下概率论cov(x,y)=EXY－EX*EY

　　协方差的定义，EX为随机变量X的数学期望，同理，EXY是XY的数学期望。

　　举例：

　　Xi 1.1 1.9 3

　　Yi 5.0 10.4 14.6

　　E(X) = (1.1+1.9+3)/3=2

　　E(Y) = (5.0+10.4+14.6)/3=10

　　E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

　　Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

　　此外：还可以计算：D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

　　D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

　　X,Y的相关系数：

　　r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

　　表明这组数据X,Y之间相关性很好!

五、先验概率与后验概率

先验概率(prior)与后验概率(posterior)简称为先验和后验。这两个概念其实是来自于贝叶斯定理，相信学过概率论的一定有所了解。在此试作简单介绍。

之前提到的先验概率到底是什么呢？，毫无疑问必须得与放在一起来介绍。一个先一个后，我们肯定是针对同一个事物才有先后之分，如果针对两个事物，先后不是没有意义了么？那这个共同的对象，就是我们的参数θ。后验概率是指掌握了一定量的数据后我们的参数分布是怎么样的，表示为p(θ|D)；那先验就是在没有掌握数据后我们的参数怎么分布。

看到这里，你可能会问：如果连数据都没有，我怎么知道我的参数是怎么分布的？你提出这个问题，就说明你是一个赤裸裸的频率派学家，你需要通过数据来得到你的参数！而这并不是贝叶斯派的考虑，贝叶斯估计最重要的就是那个先验的获得。虽然你这次的一组数据，比如说扔三次硬币产生的序列是（110）这样分布的，但是其实我根据我历史的经验来看，一枚硬币正反面其实很有可能是按照均匀分布来的，只不过可能因为你抛得次数少了所以产生了不是均匀分布的效果。所以我要考虑我以往的经验在里面。

你可能又会问：那你这个均匀分布不就是完全猜来的嘛，你怎么知道我这次是不是一样的硬币呢？没错！就是“猜来的”。先验在很多时候完全是假设，然后去验证有的数据是否吻合先验猜想，所以这里的猜很重要。还要注意，先验一定是与数据无关的，你不能看到了数据再做这些猜想，一定是没有任何数据之前你就猜了一个参数的先验概率。

六、泰勒公式

见https://www.zhihu.com/question/21149770/answer/68051674

七、Adjusted R square

Adjusted R square对模型复杂度进行惩罚，否则随着变量增加，R方都是增大的

八、

【校招面经】统计与概率基础（持续更新中）

猜你喜欢