S&p_12_推定パラメータ点

 

 

1.  パラメータ推定(点推定値):全体的な分布とパラメータの推定を行うことが知られている試料情報。方法は以下のとおりですモーメント推定、最尤推定、最小二乗推定

2. モーメント推定:を有するk番目の全体的な起源モーメントのk個のサンプルモーメント代替順序原点位置推定パラメータが得られたθはトルクθの推定量と呼ばれ

3.  最尤推定をパラメータの最尤推定は、この値は、このパラメータが最も適切であるのと推定され、パラメータ空間、現在のサンプル空間の中で最も適切な値を見つけることです。溶液:確立尤度関数(尤度関数L(Θ)=Πfx全てのサンプルの関節密度関数(XI:[シータ])、製品の膨張、対数導関数の最大値を与えるために、変換されます。

サンプルについての尤度確率関数が発生した(θ)= P Lとして{X1 = X1、···、Xnの= Xnを} = [PI(I = 1 - N-)  P {西= XI}、の即ち密度関数と、その分布関数

4.  線形回帰最小二乗推定):

線形関係であるXリニア増増加傾向、右側パネル、与えられた変数xに対して、変数Yは異なる値をとることができ、ランダムな値があり、そしてY。

所望の確率変数Y、即ち平均化、ランダム要因の加重平均を排除することができます。E(Y)は、一度既知の関数μ(X)(X)μと等しい場合、この時点で、定量的にXとYの間の傾向を把握することができます。これは、線形回帰プロセスとの間の相関関係の基本的な考え方です。

直線で表されるデータは、μ(X)=β-として表さ0 +β- 1 X. Y軸方向の誤差ξを聞かせて、サンプルデータがベータのように表すことができる] = Y 0 ] +ベータ1 X + XI]。

関数Q(β- I、 β- J)を観測点と直線からの偏差の二乗、すなわち誤差ξiと正方形[XI] = Q(β- I、 β- J)=(Y I  - (β- +  β- 1 X I))2  。そのβ- 0およびβ] 。1それぞれ誘導体、求めているベータ] 0先端ベータ付き] 。1つの先端部は、その最小二乗誤差とパラメータ推定ようになっています。回帰方程式:Y先端ベータ= 先端+  βを1。先端X

 

 

1.パラメータ推定(点推定値)

全体的なパラメータは:それはθの特定の数の全体的な分布を決定することを意味します

パラメータ空間:全体的な範囲の分布パラメータΘ、θの∈Θを。

正規分布のパラメータは、μ及びσであり;パラメータλは、ポアソン分布であるΘ他の一般的な分布、注目パラメータ範囲。

 

パラメータ推定は {···、X1、X2試料からの未知のパラメータの全体的な分布の推定を行い、情報が提供方法を説明する        、Xnを}。

示されるように、配信時刻に対応する異なるμ分布に対応する異なる値がμ1を取ることがより適切です。

しかし、μ1が最も適切ではありません取りますか?この方法は、同一のサンプルデータを介して改善されなければならない、それはパラメータ推定は、モバイルコンポーネント、最大尤度、および最小二乗法等を必要含みます

 

見積額と推定値

サンプル{X1、X2、···、Xnの}出発から、

見積もり:θ=θ(X1、X2 、···、Xnの)

見積り:θ=θ(X1、X2 、···、XN)

差:X-量推定Iの機能を、それが分布を持つ確率変数であり、推定値X Iは、ちょうど数。

サンプル、真値の推定値が非常に近い場合は、私は次のサンプルの推定は非常に真の値を推定していることを保証することはできません。この推定値が良好な推定値ではありませんお願いします。つまり、この推定値は良いものを測定することでしょうか?

開始乖離度推定値の品質を比較すると、比較した分散を

より頻繁に実際の計算、の推定値、および統計的研究では、我々は推定量とその分布をより懸念しています。

 

 パラメータ推定プレゼンテーション

点推定:パラメータ推定値の点推定値の値を推定します。

点推定値:θ=θ(X1、X2、···、Xnの)

区間推定:推定されたパラメータを推定するために、2つの推定値との垂直断面を形成します。

区間推定:[θ1、θ2]、これ

  θ1=θ1(X1、X2、···、Xnを)、

  θ2=θ2(X2、X2、···、Xnの)

使得 P {θˆ1 < θ < θˆ2} = 1 − α

例如,考试完后,人家问你能考多少分,你说能考八九十分。这就是区间估计。

参数估计以分布类型确定为前提:参数估计仅仅只解决在同一分布类型中,选出最恰当的分布 来描述总体。当获得样本后,用什么样的分布类型来描述,这 实际上是作参数估计之前需要解决的问题。

我们常用样本的实际背景来确定总体的分布。比如,车流数据用泊松分布类,身高数据用正态分布类。

 

2. 矩估计 

 

 

 

在这题中,λ即可以表示为总体的一阶原点矩,所以我们可以用样本的一阶原点矩来替代这里的总体一阶原点矩。得到λ_hat=X_bar。

 

 

矩估计的优缺点:

  优点: ① 方便,直观,简洁,明快

      ② 对E(X), D(X)作估计时,无需知道总体的分布类型

  缺点  ① 当总体的矩不存在时,矩法失效

      ② 矩估计是建立在大数定律上的,n 要求充分大

      ③ 仅用矩来进行统计推断,没有充分利用总体分布的信息

      ④ 矩估计结论不唯一

      ⑤ 矩估计结果可能不合理

 

 

 

4. 极大似然估计

极大:最大,最可能

似然:最恰当,最合理

参数有其自身的取值范围,称为参数空间。所谓参数的极大似然估计就是在参数空间中找到一个最恰当的值,就目前的样本空间来说,这个值做为该参数的估计是最为恰当的

 

 

A与B事件相互独立,所以P(B)=P{取黑球}2=1/16或9/16。

由于B事件的发生,使得P=3/4更似然一些,而且这次得到的结论比第一次要肯定的多。这是样本容量的增加,是可信度增强了

所以从引例中我们可以得知:参数取哪个使得样本发生的概率最大,那个值就称为参数的极大似然估计。

 

极大似然估计的一般步骤为

  • (1) 写出似然函数;
  • (2) 对似然函数取对数;
  • (3) 求导数;
  • (4) 解似然方程;
  • (5)判断最值点。 

 

 表达式的意思是样本发生的概率。在表达式中,xi和e是已知的,而参数λ是未知的。那么λ的不同会导致这个表达式的不同呢?

会的,于是我们可以把样本x1,x2,....,xn发生的概率用λ函数表达L(λ),记为似然函数,λ应该大于0。λ应该如何取值呢?

λ的值应该取为使得L(λ)最大的那个点。即求L(λ)的导数为0时,λ为最大值。

对数变换是单调增,不会改变原函数的极值点。 对数变换把乘积化为求和,和的导数运算就容易的多了。所以做对数运算是计算似然函数的主要方法。

注意:L(λ)函数的导数值只是极值,极大值仍需要用二阶导数来判断。二阶导数恒小于0,则λ的值为极大值

 

 

离散型分布中,似然函数为样本发生的概率为 L(θ) = P {X1 = x1, · · · , Xn = xn} = ∏(i=1 - n) P {Xi = xi},即密度函数之和,即分布函数。在由样本的独立性做乘法展开,从而求解似然函数的最大值点,来作为似然估计

连续型随机分布,是不是同样可行呢? P {X1 = x1, · · · , Xn = xn} = 0。可是连续型的随机变量在单点中发生的概率是0。理论上x与x'发生的概率都为0,但由于f(x)密度函数,f(x) > f(x'),我们知道点x比点x'附近的可能性要大,如图所示。

同理,在 (X1, X2, · · · , Xn) 的联合分布中,样本点x1,x2...xn发生了,我们将采用样本点的联合密度函数( f(x1, x2, · · · , xn)  )来描述样本点附近发生的概率, 即密度函数之和,即分布函数

 

由似然法思想,在联合密度函数点 (x1, x2, · · · , xn) ∈ Rn 上的取值应最大。记联合密度函数为L(Θ): 为似然函数。则参数的极大似然估计 θˆ 应满足最大值: 

建立似然函数,乘积展开,在θ大于-1的参数空间中,我们需要找到似然函数的最大值点。做对数变换,在求导数找到极大值。

求解过程中,是基于样本点值xi来进行的。 即这里的似然解是一个估计值,但考虑到整个求解过程不受样本x1,x2,...,xn取值的不同而改变,所以将似然解一般化,记为Xi,成为估计量。

似然估计与矩估计表达式不同,代入样本后的数值也不同。

 

  

没有极值点,就考虑最值点。在端点处可取到最值点(单调增大或减少)。

 

极大似然估计的优缺点:

  优点: ① 利用了总体的分布信息

      ② 不要求总体矩一定存在

         ③ 对样本容量没有要求

  缺点:  ① 似然方程可能无解,需要讨论

       ② 似然方程可能非常复杂,只能求数值解获得估计值

 

 

5. 线性回归

5.1 变量与变量之间的关系:确定性关系和相关性关系

  • 确定性关系:当一个变量给定时,就确定另一个变量的值与之对应。如函数关系:圆的面积(S)与半径(R)之间的函数关系:S=∏R2
  • 相关性关系:当一个变量给定时,受影响的另一个变量的值不能完全 确定,而是在一定范围内变化。BMI:身高与体重的关系。

右图中,对于给定的变量x,变量Y可以取不同的值,取值有随机性,而且Y随x的增大有增大的线性趋势,这就是线性相关关系。

对随机变量Y取平均,将随机性因素加权平均消掉。如果此时E(Y)等于μ(x),一旦知道函数μ(x),就可以从数量上掌握x与Y之间的大趋势。这就是一元线性回归处理相关关系的基本思想。

 

5.2 建立一元线性回归模型:

  

将数据做散点图,在散点图中,我们发现26个数据点基本在一条直线上的,说明x与Y成线性相关关系。

 

 用直线来表示数据,表示为μ(x)=β01x。设Y轴方向的误差为ξ,样本数据可以表示为y=β01x+ξ。

将此类问题抽象出来,给定n个样本点(xi,Yi),定义一元线性回归模型,其中为β0与β1未知的回归系数,ξ服从正态分布,ξi与ξj相互独立:

图中所示x与Y是线性相关,线性相关的直线应该是最接近所有观察点的直线,即Yi到这条直线的竖直距离最短。通常采用距离的平方和最小原则。由于平方运算也称为二乘运算,因此上述求最佳直线的方法也称为二乘最小法。

用最小二乘法所得到β0与β1估计记为β0尖与β1尖。我们称,y关于x的经验回归函数,简称为回归方程,其图形称为回归直线

样本点yi与回归直线上yi尖的竖直距离定义为残差,记为ei

根据最小二乘法思想,记函数Q(β0,β1)为观测点到直线的偏差的平方和,即误差ξi的平方和

则所求的β0尖与β1尖,就是使得误差平方和最小的参数估计。

  

利用excel中的数据分析功能:

 

计算结果得到:y=4.5516+0.7718x,说明可支配收入与支出的关系为两者成正相关性。当可支配收入增加1个单位,则平均消费支出增加0.7718个单位。

 

5.3 相关系数检验

左上的图,拟合直线效果不错,左下图,有异常点的存在导致直线整体上拉,右上图,样本点显曲线状,右下图,数据点显两点。后三种都不应该用直线拟合。

 两个随机变量间的线性相关性进行检验:引入一个数量性指标来描述两个变量之间线性关系的密切程度。这个指标就是相关系数。

   =  

在图中,我们画出回归直线和直线y巴,选择第i个点,考虑纵坐标yi,yi尖和y巴的关系。yi与回归拟合点yi尖的距离称为残差,表示回归直线不能解释样本点的部分。回归拟合点yi尖到样本均值y巴的离差表示回归直线解释回归直线表示样本点的部分。两部分加在一起就是总的拟差。

总离差平方和(SST):表示因变量的n个观测值与其样本均值的总差

回归平方和(SSR):反映自变量的x的变化对因变量y取值变化的影响。

残差平方和(SSE):反映除x以外的其他因素对y取值的影响。

由于SSE总大于等于0,所以r2<=1. r的取值范围为[-1.1]。

r2 = SSR/SST,其中SST是不变的,r2表示变量x引起的变动占总变动的百分比,即x解释y所达到的百分比。

当|r|接近1,说明回归直线与样本观测值拟合程度越好,反之,当|r|接近0.,拟合程度越不理想。

 

 

 

おすすめ

転載: www.cnblogs.com/tlfox2006/p/11788483.html