【校招面经】统计与概率基础(持续更新中)

注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。

一、p值的含义

其实理解起来很简单,基本原理只有3个: 1、一个命题只能证伪,不能证明为真 2、在一次观测中,小概率事件不可能发生 3、在一次观测中,如果小概率事件发生了,那就是假设命题为假

证明逻辑就是:我要证明命题为真->证明该命题的否命题为假->在否命题的假设下,观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。

结合这个例子来看:证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05->小概率事件发生,否命题被推翻。

可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信

---------------------

这个过程实际上和人脑的做判断的过程很相似

作者:吉米多维奇

链接:https://www.zhihu.com/question/23149768/answer/31704861

二、协方差和相关性有什么区别?

相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。

为了解决这个问题,我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量。

三、相关系数与余弦相似度

数学公式:

两个向量(x1,x2,x3)(y1,y2,y3)

求内积a・b  =        cos <a, b> |a| |b|         = x1*y1+x2*y2+x3*y3

==========================================

有两个向量,我们希望定义它们是不是相关。一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就“距离”小,夹角大,就“距离”大。

==========================================

step1:

两个向量的夹角的余弦,就叫做“相关系数”,cos <a, b> =(a・b)/|a||b|,写开了就是:

余弦=相关系数;内积=协方差

step2:

回到正题上来,我就简称cos和pearson吧。如果把向量中心化之后,这两个就是一个东西了,什么叫中心化,就是每个数减去均值。这个要不要中心化有啥影响呢。就是这篇文章里的这个例子,比如两个用户对商品评价的变化趋势其实是一样的,但是一个用户倾向于总体给低分,一个用户倾向于总体给高分,这时用cos可能就有问题了,这就是为什么有人说计算cos的时候要先把数据中心化。

举个简单的例子帮助理解吧。比如有两个2维向量,x=(1, 2)和y=(3, 5),很明显y是由x通过线性变换得到的,pearson相关系数应该为1,但是这两个点肯定不在一条过原点的直线上,因此它们夹角的cos肯定不是1。但是中心化之后,x=(0.5, 0.5),y=(1, 1),这就在一条过原点的直线上了。

四、相关系数的快速计算

cov(x,y)=EXY-EX*EY

  协方差的定义,EX为随机变量X的数学期望,同理,EXY是XY的数学期望,挺麻烦的,建议你看一下概率论cov(x,y)=EXY-EX*EY

  协方差的定义,EX为随机变量X的数学期望,同理,EXY是XY的数学期望。

  举例:

  Xi 1.1 1.9 3

  Yi 5.0 10.4 14.6

  E(X) = (1.1+1.9+3)/3=2

  E(Y) = (5.0+10.4+14.6)/3=10

  E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

  Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

  此外:还可以计算:D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

  D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

  X,Y的相关系数:

  r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

  表明这组数据X,Y之间相关性很好!

五、先验概率与后验概率

先验概率(prior)与后验概率(posterior)简称为先验和后验。这两个概念其实是来自于贝叶斯定理,相信学过概率论的一定有所了解。在此试作简单介绍。 

之前提到的先验概率到底是什么呢?,毫无疑问必须得与放在一起来介绍。一个先一个后,我们肯定是针对同一个事物才有先后之分,如果针对两个事物,先后不是没有意义了么?那这个共同的对象,就是我们的参数θ。后验概率是指掌握了一定量的数据后我们的参数分布是怎么样的,表示为p(θ|D);那先验就是在没有掌握数据后我们的参数怎么分布。

看到这里,你可能会问:如果连数据都没有,我怎么知道我的参数是怎么分布的?你提出这个问题,就说明你是一个赤裸裸的频率派学家,你需要通过数据来得到你的参数!而这并不是贝叶斯派的考虑,贝叶斯估计最重要的就是那个先验的获得。虽然你这次的一组数据,比如说扔三次硬币产生的序列是(110)这样分布的,但是其实我根据我历史的经验来看,一枚硬币正反面其实很有可能是按照均匀分布来的,只不过可能因为你抛得次数少了所以产生了不是均匀分布的效果。所以我要考虑我以往的经验在里面。

你可能又会问:那你这个均匀分布不就是完全猜来的嘛,你怎么知道我这次是不是一样的硬币呢?没错!就是“猜来的”。先验在很多时候完全是假设,然后去验证有的数据是否吻合先验猜想,所以这里的猜很重要。还要注意,先验一定是与数据无关的,你不能看到了数据再做这些猜想,一定是没有任何数据之前你就猜了一个参数的先验概率。

六、泰勒公式

https://www.zhihu.com/question/21149770/answer/68051674

七、Adjusted R square

Adjusted R square对模型复杂度进行惩罚,否则随着变量增加,R方都是增大的

八、

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/81161030