《深入浅出统计学》内容摘要

转自:http://blog.sina.com.cn/s/blog_49e540b50102w5od.html

1. 《第一印象》,类别数据也叫做定性数据;数值型数据也叫做定量数据。画出直方图,长方形面积=每组频数。频数密度指的是分组数据中的频数的密集度,频数密度=频数/组距。直方图是一组专门用于体现分组数据的图形,它看起来很像条形图,但每条长方形的高度等于频数密度,而不是频数。直方图的长方形之间没有间隔。认识累积频数,显示某个特定值以内的频数之和。取各个上限为横轴,累积频数为纵轴,就能在图上画出这些数据。画出点再将线连接起来。折线图应只用于展现数值型数据,不应用于类别数据。原因是,对类别数据进行比较是有意义的,但为其绘制趋势线却没有意义。只有在基于某些数值型单位(比如时间)对类别进行比较时才使用折线图。

2. 《集中趋势的量度》中庸之道,有时候把握问题核心才是当务之急。向右偏斜的数据有一条“尾巴”,这条尾巴由偏大异常值形成,向右逐渐变弱。扭曲了均值,将均值拉高了,即拉向了右边。向左偏斜就会均值小于大部分值。理想情况下,你会希望数据呈对称形态。当偏斜数据和异常值使均值产生误导时,就可以取中间值,这是另一种平均数,我们称其为中位数。如果一批数字的数目是偶数,则只要取两个中间数的均值即可。求中位数需要先排列数字,从最小值到最大值。再说众数,一批数据众数可能不止一个,如果有两个众数,就说是双峰数据。众数不仅能用于数值型数据,还能用于类别数据,事实上,众数是唯一能用于类别数据的平均数。在什么情况下使用众数,当众数数目较少时,或者当数据为类别数据,而不是数值型数据时,均值和中位数都不能用于类别数据。当众数很多的时候众数最无用。首先考虑平均值,如果有异常值尾巴就考虑再使用中间值,(如果数值是对称的,平均值和中间值就相同)

3. 《分散性与变异性的量度》强大的“距”,因为全距是量度数据分散程度的简单方便的方法,使用上界-下界,得到全距。全距是描述数据集分散程度的简便方法,但通常并非描述数据在该全距内的分布形态的最好方法。因为异常值具有误导性。构成相等全距的途径很多,有时候这一点附加信息十分重要。但是为什么大家使用它是因为全距非常简单。全距的主要问题是包含异常值。我们需要通过某种方法消除这些异常值的影响,有一个办法可以解决这个问题,即使用所谓的迷你距忽略异常值。我们量度全部的一部分,不包含异常值的部分。四分位距=上四分位数(Q3)-下四分位数(Q1),因为从小到大排列,q1,q2,q3。这样刨除了下四分位数以下的25%的数据以及上四分位数以上的25%的数据。也就是说四分位距只使用了中间50%的数据,如此将异常值弃而不用。异常值不可能处于中心部位,这意味着数据中的所有异常值都被有效地剔除了。因为异常值要么极大,要么极小。四分位距也叫迷你距。分为“下界,下四分位数,中位数,上四分位数,上界”。如何求,如果有6个数,那么6/4=1.5,向上取整得到2,这表示下四分位数为2.求上四分位数的位置,3n/4=3*6/4=4.5,向上取整也就是5。在大部分情况下,四分位距都比全距更有意义,但归根到底取决于你真正需要的信息。数据的上界和下界就是最大值和最小值。我们也可以用百分位数构建一个新的距,成为百分位距。计算的k(n/100),比如有125个数,要求十分位数,则先计算10*(125/100),结果为12.5,向上取整,得13.即十分位数为处于第13位的数值。用箱线图绘制各种“距”。箱线图显示数据的全距,四分位距,以及中位数。在同一张箱线图上可以比较几批数据,也就是说,箱线图是对不同数据集进行比较的极好方法。如果你的数据中有异常值,则全距会更宽。如果箱线图是对称的,表示基础数据很可能也相当对称。百分位数将数据一分为百,对于划分档次非常有用。第k百分位数就是位于数据范围k%处的数值。百分位距与四分位距相似,但百分位距是介于两个百分位数之间的距离。箱线图中的“箱”显示出四分位数和四分位距的位置,“线”则显示出上,下界。全距与四分位距的问题是:它们仅告诉你最大值和最小值的差值,却无法告诉你球员们得到这些最高分和最低分的频率。各个数值与均值的距离正负相抵消。但是方差的问题是人们恐怕难以根据距离的平方数考虑分散性,有一个简单的办法可对此进行修正,取方差的平方根,也即标准差。(x-u)^2加和/n,也就是x^2加和/n-u^2。标准差也可能是0,当所有数值相同的时候,这样每个数值与均值的举例都是0。使用标准分比较不同数据集中的数值。z=(x-平均值)/标准差。标准分可以取任意值,这些值表示相对于均值的位置。正的z分表示数值高于均值,负的z分表示数值低于均值。若是0,则数值等于均值本身。数值大小体现了数值和均值的距离。标准分=距离均值的标准差个数。

4.《概率计算》把握机会。通过概率能评估各种结果的可能性,让你预测未来,帮助你做出有根据的决策。画一个方框代表样本空间S。然后画几个圆圈代表各个相关事件,这种图形叫维恩图。P(事件)+P(对立事件)=1.球位不可能既是红色,又是黑色,这二者是互斥事件。如果两个事件是互斥事件,则只有其中一个事件会发生,如果两个事件相交,则这两个事件有可能同时发生。如果几个事件互有影响,则为相关事件。如果几个事件互不影响,则为独立事件。比如在星期二(已知条件)下雨,因为不会由于是星期更有可能下雨或者不下雨,因此二者是独立事件。

5. 《离散概率分布的运用》善用期望,意外从天而降,未来如何演变?在赌博机上连续玩多局赌局时,每一局称为一个时间,每一局的结果称为一个观测值

7. 《几何分布,二项分布及泊松分布》坚持离散。几何分布:一是进行一系列相互独立的实验;二是每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同;为了取得第一次成功所需要进行的试验次数来计算概率。因为当试验次数为1的时候,概率达到最大值,因此任何几何分布的众数永远都是1。期望是1/P。

二项分布:你正在进行一系列独立试验;每一次试验都存在失败和成功的可能,每一次试验的成功概率相同;试验次数有限。目的是求出n次试验中r次成功次数的概率。p越接近0.5,图形越对称。一般情况下,p小于0.5,图形向右偏斜,反之亦然。泊松分布:单独事件在给定区间内随机,独立地发生,给定区间可以是时间或空间;已知该区间内的事件平均发生次数,且为有限数值。用希腊字母(lambda)表示。让我们用X表示给定区间内的事件发生次数,例如一个星期内的损坏次数。如果X符合泊松分布,且每个区间内平均发生lambda次,或者说发生率为lambda。泊松分布的形状随着lambda的数值发生变化。它小,则分布向右偏斜,它大,分布逐渐变得对称。如果它是一个整数,则有两个众数,lambda和lambda-1,如果不是整数,则众数为lambda。当n很大,p很小的时候,可用泊松分布近似地代替二项分布。

8. 《正态分布的运用》保持正态

9.《超越正态》如果使用正态分布来估算二项分布,但是比如计算P(X)<6,正态分布计算的是小于6.5因此应该考虑连续性修正,小幅调整。在将离散数值转换为连续标度。如果使用正态分布近似代替二项分布需要进行连续性修正,这才能确保得到正确的结果。如果需要计算P(a<=X<=b),那么计算P(a-0.5

10.《统计抽样的运用》抽取样本。有无偏样本和偏倚样本。偏倚样本的出现主要是以下几点引起的:样本空间中条目不齐全;抽样单位不正确;为样本选取的一个个抽样单位未出现在实际样本中。调查问卷的问题设计不当,设计的问题要中性,要适合每个人回答;样本缺乏随机性。简单随机抽样分为重复抽样和不重复抽样,利用抽签或者使用随机编号。还可以使用分层抽样分别为几个相似的组,把它们分层分别抽取。系统抽样是选取一个数字k,然后每到k个对象就进行抽取,组成样本。

11.《总体和样本的估计》进行预测.样本均值可以估计总体均值,但是样本方差可能不是总体方差的最好估计办法,因为一个数据集的方差所量度的是数值与均值的偏离程度,当选择一个样本后,相比总体,拥有的数据量变少了,因此与总体中的数值偏离均值的程度相比,样本中的数值更有可能以更紧密的方式聚集在均值周围。样本方差可能略小于总体方差,差别程度则取决于样本数值的大小。样本较小时,差别可能更大。一组数字除以n-1的结果大于这一组数字除以n的结果,当n相当小时,这种差别最为显著。也就是说通过公式算得的结果与样本数据的方差近似,效果更好一点儿。比例标准误差是根号下pq/n。说明,样本中包含的对象越多,用样本比例作为p的估计量就越可靠。n很大,大于30的时候,抽样的分布越接近正态分布。但是需要对抽样分布进行连续性修正。如果n很大,连续性修正变得很小,于是对整个概率带来的变化极小,可以忽略。因为假设抽样的概率为ps,ps=x/n,ps服从二项分布B(n,p),因此E(ps)=np/n=p,Var(ps)=Var(x/n)=Var(x)/n^2=npq/n^2=pq/n。因为是离散型通过连续型模型进行估计,因此需要连续性修正,用x表示样本中的成功数目,则ps=x/n;x的正态连续性修正为+-(1/2)。那么ps的连续性修正为+-(1/2)/n。连续性修正的确切数值取决于数值n。

什么是抽样分布,如果从一个总体中用相同的方法抽取许多大小相同但存在差异的样本,然后用每个样本的某个属性形成一个分布,则所得结果称为抽样分布。由此得出,用每个样本的比例形成的抽样分布就是“比例的抽样分布”。

为什么ps的方差和总体方差不一样? 比例的抽样分布的方差描述的是样本比例的变化情况,而不是描述数值本身的变化情况。由于描述的概念不一致,因此结果数值不一样。考虑从同一个总体中取得的所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例的抽样分布”。我们用ps代表样本比例随机变量。

又来了一个问题,曼帝糖果公司对总体的统计,每一个小包装袋里的糖球数目均值为10,方差为1.麻烦来了,他们遭到了某位忠实顾客的投诉,买了30袋糖球,结果发现每袋糖球中的糖球平均数目只有8.5。问这种事情的概率有多大。先看总体X的分布,X的均值是miu,方差是sigma^2,接着用来自总体X的所有大小为n的可能样本,形成所有样本均值的分布,该均值为miu,方差为sigma^2/n。方差开根号即为标准差,这个标准差可指出样本均值与miu的可能偏离距离,因此被称为均值标准误差。n越大,均值标准误差越小,也就是说样本中的个体越多,作为总体均值的估计量的样本均值越可靠。随着n增大,X的均值越来越接近正态分布。我们已经知道,当X符合正态分布时,X的均值符合正态分布;如果X不符合正态分布,但如果n足够大,我们仍然可以使用正态分布的近似分布。现在的情况是我们知道总体的均值和方差,但却不知道总体的分布。不过没关系,由于样本大小为30,我们还是能用正态分布求X均值的概率。这叫做“中心极限定理”。

认识“中心极限定理”,如果从一个非正态总体X中取出一个样本,且样本很大,则该样本(X的均值)的分布近似正态分布,服从N(miu,sigma^2/n)

12 《置信区间的构建》自信地猜测

选择总体统计量,求出其抽样分布,决定置信水平,求出置信上下限。我们已经讲过均值和比例的抽样分布,因此能够为这两个统计量构建置信区间。置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。但是置信区间太宽会失去其意义。关键是要让区间尽可能窄,但又足够宽,这样才能合理地相信真正的均值就在区间中间。X拔的分布即均值的抽样分布,它是这样来的,从总体中取出每一个大小为n的可能样本,然后用所有的样本均值形成一个抽样分布。置信水平是“统计量处于置信区间之中”的概率,通常是一个百分数,置信区间则给出了区间本身-数字实际范围的上下限。我们已经求得miu的95%置信区间为(a,b),这究竟意味着什么?这意味着如果你打算抽取大小相同的多个样本,然后为所有这些样本构建置信区间,则这些置信区间中有95%会包含总体均值的真实值。

当总体符合正态分布,sigma^2未知,且供支配的样本很小时,X拔符合t分布。t分布是外形光滑,对称的曲线,确切形状取决于样本大小。当样本很大时,t分布外形很像正态;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数v,v=n-1,n为样本大小,v称为自由度。“T符合t分布且自由度为v”的简明表示方法为:T~t(v).t(v)表示我们正在使用自由度为v的t分布:v=n-1。t分布的使用方法与正态分布相似--先将概率区间的上下限转化为标准分,然后用概率表求出所需要的结果。求t分布的标准分,像处理正态分布一样,我们先减去抽样分布的期望,然后用所得到的差除以标准差。唯一的差别是,我们用T而不是Z代表结果。这是为了配合t分布的使用。

记住:置信水平指的是你希望自己对“置信区间包含总体统计量”这个说法有多大信心。

在用小样本估计总体方差时,t分布更精确。当n很小时,t分布给出的置信区间你正态分布的置信区间更宽,这使它更适合用于小样本。它的适用条件是sigma^2未知,n很小(小于30),X拔为样本均值已知,s^2为样本方差已知。来求出置信区间。根据v=n-1和p值来求出t,及可得其对应的置信区间。比如:曼帝糖果公司发现他们的装糖机出问题了,他们抽取了30台机器作为样本,发现故障次数均值是15.请为每月故障次数构建一个99%的置信区间。因为是一段时间内的故障问题,所以使用泊松分布。

x拔符合t分布吗?

当总体符合正态分布而样本很小时,X符合t分布,这时需要使用样本数据估计总体方差。置信区间的表达式为:统计量+-误差范围,误差范围=c*统计量的标准差。所以一般说来,较小的样本形成较宽的置信区间,较大的样本形成较窄的置信区间。

13.《假设检验的运用》研究证据

一共6个步骤:确定要进行检验的假设;选择检验统计量;确定用于做决策的拒绝域;求出检验统计量的p值;查看样本结果是否位于拒绝域内;作出决策。

我们所检验的这个断言被称为原假设,以H0表示。除非我们有充分证据反驳,否则就接受这个断言。与原假设对立的断言被称为备择假设,用H1表示。如果有足够的证据拒绝H0,我们就接受H1。原假设和备择假设必须穷举吗?二者是否应该涵盖所有可能的结果?不用,例如,本例中的原假设是P=0.9,备择假设是p<0.9,二者都不必考虑p>0.9。进行假设检验时,你假定原假设为真;如果有足够的证据反驳原假设,则拒绝原假设,接受备择假设。

选择检验统计量:我们做假设检验的目的是检验鼾克是否能治愈90%以上的患者。为此,可以根据制药公司的说法查看概率分布,看看抽样中的成功次数是否显著。如果用X表示样本人数,就可以将X作为检验统计量。样本中共有15名患者,根据制药公司的说法,成功概率为90%,由于符合二项分布,于是X~B(15,0.9)。

确定拒绝域:假设检验的拒绝域是一组数值,这组数值给出反驳原假设的最极端证据。何时能够拒绝制药公司的断言?我们需要通过某种方法指出何时能够拒绝原假设-指定一个拒绝域即可实现这一目的。如果鼻鼾患者的治愈人数位于拒绝域以内,我们就说有足够的证据可以反驳原假设;如果鼻鼾患者的治愈人数位于拒绝域以外,我们就承认没有足够的证据可以反驳原假设,并接受制药公司的断言。我们把拒绝域的分界点称为“c"-临界值。为求拒绝域,先定显著性水平。检验的显著性水平所量度的是一种愿望,即:希望在样本结果的不可能程度达到多大时,就拒绝原假设H0。假设我们想以5%的显著性水平检验制药公司的断言,这说明我们选取的拒绝域应使得“鼻鼾患者治愈人数小于c”的概率小于0.05.显著性水平通常用希腊字母alpha表示,alpha越小,为了拒绝H0,样本结果需要达到的不可能程度越高。如果我们用X表示治愈的鼻鼾患者的数目,则我们将拒绝域定义为能令下列不等式成立的一些数值:P(X单尾检验还是双尾检验

单尾检验,即检验的拒绝域落在可能的数据集的一侧。如果备择假设包含一个<符号,则使用左尾,此时拒绝域位于数据的低端。反之亦然。

双尾检验,即拒绝域一分为二位于数据集的两侧,你选择检验水平alpha,然后将拒绝域一分为二,两侧各占alpha/2。判断是否需要使用双尾检验的方法是:查看备择假设H1,如果H1包含一个不等号,则需要使用双尾检验,这是因为你要找出参数的变化,而不是增减。

求出p值:具体用哪种方法求p值取决于拒绝域和检验统计量。求出p值,即为取得样本中的各种结果或取得拒绝域方向上的某些更为极端的结果的概率。

样本结果位于拒绝域中吗?本例中如果小于0.05,就能拒绝原假设,但是求得的p值为0.0555.因为不在拒绝域内。

作出决策:决定接受原假设还是拒绝原假设接受备择假设。本例中是接受原假设。

显著性水平与置信区间的置信水平有共同之处吗?

在为总体参数构建置信区间时,你希望对”总体参数位于两个限值之间“这一结果具有一定的置信度。例如,如果置信水平为95%,则说明总体参数位于两个限值之间的概率为0.95。显著性水平反映了数值将位于某个限值以外的概率。例如显著性水平为5%意味着拒绝域的概率必须为0.05。

假设检验需要证据。

进行假设检验时,你选取一个断言,然后对其进行试验。只有在有足够证据反驳这个断言时,你才能否定这个断言。这意味着检验是公正的,因为你做决策的唯一依据就是是否有充分证据。

在进行假设检验的时候,我们怎么会做出错误决策呢?我们做假设检验不就是为了确保不判错吗?、

在进行假设检验的时候,你只能根据手头拥有的证据作决策,证据来源于样本,因此,如果样本有偏,那么你会根据有偏数据做出错误决策。

有些人把假设检验称为显著性检验,这是因为你是按照某种显著性水平进行检验的。

假设检验的基本方法是这样的:选取一个断言,对其进行检验--评估对其不利的证据。如果有足够的不利证据,则否定该断言;如果没有足够的不利证据,则接受该断言。第一类错误:错误地拒绝真原假设;第二类错误:错误地接受假原假设。

第一类错误:拒绝了原假设,判定一个无罪的人有罪。这个前提是样本结果必须位于拒绝域以内。发生第一类错误的概率等于你的结果位于拒绝域以内的概率。由于拒绝域由检验水平决定。说明如果检验的显著性水平为alpha,则发生第一类错误的概率必须也等于alpha。

P(第一类错误)=alpha

第二类错误:接受原假设,此时原假设为错误假设。判定一个有罪的人无罪。

P(第二类错误)=beta

如何求这个概率呢?检查是否拥有H1的特定数值。没有这个数值则无法计算第二类错误概率。求检验拒绝域以外的数值范围。如果检验统计量已经标准化,则该数值范围要进行逆标准化。假定H1为真,求得到这些数值的概率。也就是说,我们要求出得到拒绝域以外的数值的概率。但这一次用H1而不是H0对检验统计量进行描述。

为什么只有在H1规定了唯一特定值时才能计算这个错误,比如:H1:P=0.8,因为不能使用H1:P<0.9

第二类错误是在备择假设为真的情况下接受原假设所引起的结果,为了求出发生这一类错误的概率,你首先需要求出样本中的表明你接受原假设的数值范围。在求出这些值之后,还需要计算在假设H1为真的情况下取得这些数值的概率。

认识功效,假设检验的功效也是一种概率-在H0为假的情况下拒绝H0的概率,也就是说我们做出正确决策而拒绝H0的概率。功效=1-beta,就是发生第二类错误的相反情况。

14.《卡方分布》分析结果,排除可疑结果,卡方是希腊字母chi的大写。对概率分布中的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加。如果这个值很小,说明观察频数和期望频数之间的差别不显著,这个值越大,差别越显著。

卡方分布有两个主要用途:
第一是用于检验拟合优度,也就是可以检验一组给定的数据与制定分布的吻合程度。

第二是检验两个变量的独立性,检查是否存在某种关联。

卡方分布用到一个参数--希腊字母niu,读作“纽”,当niu等于1或2,分布为一条先高后低的平滑曲线。检验统计量等于较小数值的概率远远高于等于较大数值的概率。当niu大于2,曲线形状发生改变-随着卡方值递增,图形先低后高,再低,当niu很大时,图形接近正态分布。niu是自由度数目。那么niu是多少,为了计算niu,我们取所计算过的信息的数目,减去所受到的限制的数目。本例中niu=5-4=1,还可以这么理解,我们必须利用概率分布计算4个期望频数;至于最后一个频数,则可以先求出总期望频数,再求出最后一个频数。一般来说,niu=组数-限制数。用卡方分布进行的检验为单尾检验,右尾被作为拒绝域。

根据卡方概率表,首先找出自由度niu以及显著性水平alpha,查出竖直15.51.意味着,只要检验统计量卡方值大于15.51,则在显著性水平为5%,自由度为8的情况下,检验统计量就位于拒绝域以内。

步骤如下:

1.确定要进行检验的假设及其备择假设

2.求出期望频数和自由度

3.确定用于做决策的拒绝域(根据显著性水平和自由度)

4.计算检验统计量卡方值

5.查看检验统计量是否位于拒绝域以内

6.作出决策。

卡方检验其实就是假设检验的特殊形式。假设检验总是使用右尾。这是因为检验统计量越大,观察频数与期望频数的差别越大。

肥蛋赌场的老虎机发现异样情况,对每个数值,观察频数和期望频数不相符,解决思路如下:

那么你的任务是在5%的显著性水平下,看看是否有足够的证据判定老虎机被人动了手脚。显著性水平即指出观察频数和期望频数之间的差异显著性。

总结一下你的解答步骤

首先,得到老虎机的一组观察频数,然后假定这些频数符合某种特定的概率分布并算出了期望频数。然后你算出自由度和检验统计量,通过检验统计量X^2可以看出观察频数和期望频数之间的总偏差。

然后,你从X^2概率表查出显著性为5%时的拒绝域,经过与检验统计量进行比较,你发现有足够的证据判定老虎机被人动过手脚,所以才会多赔钱。

这种假设检验称为拟合优度检验--它检验观察频数是否和假设的概率分布相吻合。如果你有一组数据,并希望这组数据符合某种分布,为了看看这组数据是否确实符合这组分布,则可以用拟合优度检验。

只要你有一组观察频数,且能算出期望频数,就可以用卡方分布检验任何概率分布的拟合优度。最大的困难在于自由度niu的计算。

分布   条件    niu(n是观察频数总数)

二项分布    已经p  n-1

二项分布    未知p,必须通过观察频数进行估计           n-2

泊松分布    已经lambda n-1

泊松分布    未知lambda,必须通过观察频数进行估计  n-2

正态分布    已经miu和sigma^2    n-1

正态分布    未知miu和sigma^2,必须通过观察频数进行估计  n-2

现在的问题是检验赌局结果是否取决于坐庄赌局的庄家

独立性卡方检验可用于判断两种因素是否相互独立,或两者是否看上去互有联系。这正合我们意,要检验在二十一点赌局中坐庄的庄家是否对赌局输赢有影响。换句话说,我们假定庄家的选择与输赢无关,除非有足够的证据可以反驳这一点。

独立性检验的过程与拟合优度的检验过程类似,设立一个假设,用观察频数和期望频数计算卡方检验统计量,然后查看结果是否落在拒绝域以内。计算自由度是查看有多少个需要独立计算的期望频数,再减去限制条件数目。

本例中由于必须算出4个期望频数,于是自由度就等于这个数目,算出这些频数后,其余频数自然就知道了。

也可以这么考虑,总共需要计算9个数值,其中5个不用独立进行计算,因为niu=9-5=4

卡方分布的主要用途就是拟合优度检验和独立性检验,可以用它检验任意概率分布的拟合优度。例如,可以观察频数是否符合特定二项分布。与其他假设检验一样,显著性水平越小,为了拒绝原假设所需要的证据越强。检验时常用的显著性水平为5%和1%。

自由度的计算方法归纳

每一行都对应着k列,有办法知道每一行的合计,因为只需要计算(k-1)列即可。niu=(h-1)*(k-1)

通过卡方分布可以进行拟合优度检验和变量独立性检验。

15. 《相关与回归》

散点图为你指出模式,你可以愈发清晰地勾勒出两个变量之间的关系--如果确实存在某种关系的话。用最佳拟合线预测数值,我们需要将误差最小化。误差平方和SSE=(y-通过最佳拟合线得出的y估计值)^2的和。

直接y=a+bx的斜率b的计算式为((x-x平均)*(y-y平均))加和/((x-x平均))加和,a=y平均-b*x平均

两个变量的相关系数r=b*sx/sy,b的计算公式如上所述。sx=根号下((x-x平均)^2加和/n-1)

猜你喜欢

转载自blog.csdn.net/dujiahei/article/details/88049572