笔记:二元Probit与Logit模型

二元离散选择模型的建立

建立模型: Y i = X i β + μ i Y_i=X_i\beta+\mu_i
二元选择下, Y i = 0 , 1 Y_i=0,1 E ( μ i {\rm E}(\mu_i )=0,所以 E ( Y i {\rm E}(Y_i )= X i β X_i \beta
易知 E ( Y i ) = P ( Y i = 1 ) = X i β {\rm E}(Y_i)=P(Y_i=1)=X_i\beta
P ( Y i = 1 ) P(Y_i=1) 要求[0,1]范围,而 X i β X_i\beta 却没有这个限制,所以产生了矛盾。另外,
μ i = { 1 X i β , Y i = 1 , X i β X i β , Y i = 0 , 1 X i β \mu_i=\begin{cases} 1-X_i\beta, \quad {\rm当}Y_i=1,其概率为X_i\beta\\-X_i\beta,\qquad 当Y_i=0,其概率为1-X_i\beta \end{cases}
为了使模型可以估计,建立
Y i = X i β + μ i ( 1 ) Y_i^*=X_i\beta+\mu_i^*\quad(1)
使得 P ( Y i = 1 ) = P ( Y i > 0 ) = P ( μ i > X i β ) P(Y_i=1)=P(Y_i^*>0)=P(\mu_i^*>-X_i\beta) (2)
μ i \mu^*_i 选择的概率分布常用的是标准正态分布和逻辑分布,相应地形成了两种最常用的二元选择模型——Probit模型与Logit模型。
这两种分布都是对称的,所以
P ( Y i = 1 ) = P ( Y i > 0 ) = P ( μ i > X i β ) = 1 P ( μ i X i β ) = 1 F ( X i β ) = F ( X i β ) P(Y_i=1)=P(Y_i^*>0)=P(\mu_i^*>-X_i\beta)\\ =1-P(\mu_i^* \leq-X_i\beta)\\ \qquad=1-F(-X_i\beta)=F(X_i\beta)
模型(1)的似然函数:
P ( Y 1 , . . . , Y n ) = Y i = 0 [ 1 F ( X i β ) ] Y i = 1 F ( X i β ) P(Y_1,...,Y_n)=\prod_{Y_i=0}[1-F(X_i\beta)]\prod _{Y_i=1}F(X_i\beta)

L = i = 1 n [ F ( X i β ) ] Y i [ 1 F ( X i β ) ] 1 Y i L=\prod_{i=1}^n [F(X_i\beta)]^{Y_i}[1-F(X_i\beta)]^{1-Y_i}
取对数:
l n L = { Y i l n F ( X i β ) + ( 1 Y i ) l n [ 1 F ( X i β ) ] } ln L =\sum \{Y_i ln F(X_i\beta)+(1-Y_i)ln[1-F(X_i\beta)]\}
一阶条件为
l n L β = [ Y i f i F i + ( 1 Y i ) f i 1 F i ] X i = 0 ( 3 ) \frac{\partial ln L}{\partial \beta}=\sum [\frac{Y_i f_i}{F_i}+(1-Y_i)\frac{-f_i}{1-F_i}]X_i=0 \quad (3)
求解该方程组,可以得到模型参数估计量。

二元Probit模型

Probit模型就是 μ i \mu_i^* 取正态分布推导得出的。

  • 重复观测值不可得到时的情况
    这个情况是指对每个决策者只有一个观测值。
    在这种情况下我们将一阶条件(3)写为:
    l n L β = Y i = 0 f i 1 F i + y i = 1 f i F i X i = i = 1 n [ q i f ( q i X i β ) F ( q i X i β ) ] X i = i = 1 n λ i X i = 0 \frac{\partial ln L}{\partial \beta}=\sum_{Y_i=0}\frac{-f_i}{1-Fi}+\sum_{y_i=1}\frac {f_i}{F_i}X_i\\=\sum_{i=1}^n[\frac{q_if(q_iX_i\beta)}{F(q_iX_i\beta)}]X_i\\=\sum_{i=1}^n\lambda_iX_i=0
    其中 q i = 2 Y i 1 q_i=2Y_i-1
    上式关于 β \beta 式非线性函数,不能直接求解,需采用完全信息最大似然法中所采用的迭代方法。
  • 重复观测可以得到时的情况
    由于外部条件不变很难实现,所以这个模型的应用价值受到限制。

二元Logit模型

就是方程(2)中的 μ i \mu_i^* 的概率分布设为逻辑分布而推导得到的。
逻辑分布的分布函数:
F ( t ) = 1 1 + e t F(t)=\frac{1}{1+e^{-t}}
密度函数:
f ( t ) = e t ( 1 + e t ) 2 f(t)=\frac{e^{-t}}{(1+e^{-t})^2}
其中分布函数可改写为:
F ( t ) = e t 1 + e t = Λ ( t ) ( 4 ) F(t)=\frac{e^t}{1+e^t}=\Lambda(t)\quad (4)
概率密度函数可改写为:
f ( t ) = e t ( 1 + e t ) 2 = Λ ( t ) [ 1 Λ ( t ) ] ( 5 ) f(t)=\frac{e^t}{(1+e^t)^2}=\Lambda(t)[1-\Lambda(t)] \quad (5)

  • 重复观测值不可得到时的情况
    将(4)(5)代入一阶条件(3)中:
    l n L β = [ Y i f i F i + ( 1 Y i ) f i 1 F i ] X i = i = 1 n [ Y i Λ ( X i β ) ] X i = 0 \frac{\partial ln L}{\partial \beta}=\sum [\frac{Y_i f_i}{F_i}+(1-Y_i)\frac{-f_i}{1-F_i}]X_i=\\\sum_{i=1}^n[Y_i-\Lambda(X_i\beta)]X_i=0
    上式关于 β \beta 非线性,不能直接求解,需采用完全信息最大似然法中的迭代方法。
  • 重复观测值可以得到的情况
    同样可以采用广义最小二乘法估计二元Logit模型。
发布了24 篇原创文章 · 获赞 5 · 访问量 577

猜你喜欢

转载自blog.csdn.net/weixin_39174856/article/details/103963514