版权声明:本文为博主原创文章,采用“署名-非商业性使用-禁止演绎 2.5 中国大陆”授权。欢迎转载,但请注明作者姓名和文章出处。 https://blog.csdn.net/njit_77/article/details/84452142
看了一下斯坦福大学公开课:机器学习教程(吴恩达教授),记录了一些笔记,写出来以便以后有用到。笔记如有误,还望告知。
本系列其它笔记:
线性回归(Linear Regression)
分类和逻辑回归(Classification and logistic regression)
广义线性模型(Generalized Linear Models)
广义线性模型(Generalized Linear Models)
我们目前学习的两种不同算法对p(y|x;
θ)进行建模:
y∈RGaussiandistribution→least squares of linear regressiony∈{0,1}Bernoullidistribution→logistic regression
1 指数分布族(The exponential family)
指数分布族可写成如下形式:
p(y;η)=b(y)exp(ηTT(y)−a(η))η→分布的自然参数(naturalparameter)T(y)→充分统计量(sufficientstatistic)通常情况下T(y)=y
对于伯努利分布
Ber(ϕ)={p(y=1 ∣ ϕ)=ϕp(y=0 ∣ ϕ)=1−ϕ
p(y ∣ ϕ)=ϕ(y)(1−ϕ)(1−y)=exp(log(ϕ(y)(1−ϕ)(1−y)))=exp(log(ϕ(y))+log((1−ϕ)(1−y)))=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ)+log(1−ϕ))
令
T(y)=y,b(y)=1,η=log1−ϕϕ,则
ϕ=1+e−η1,a(η)=−log(1−ϕ)=log(1+eη)
对于高斯分布
p(y ∣ μ;σ2)=2π
σ1exp(−2σ2(y−μ)2)=2π
σ1exp(−2σ2(y2−2yμ+μ2))=2π
σ1exp(−2σ2y2)exp(2σ22yμ−μ2)
令
T(y)=y,b(y)=2π
σ1exp(−2σ2y2),η=σ2μ,则
μ=ησ2,a(η)=2σ2μ2=2η2σ2
2 构建广义线性模型(Constructing GLMs)
构建广义线性模型的三个前提条件:
1、y | x;
θ ~ Exp Family(
η) 给定输入x和参数
θ,输出y的分布满足以
η为自然参数的指数分布族;
2、给定输入
X,我们的目标是输出
E[T(y)∣x],即
h(x)=E[T(y)∣x];
3、
η=θTx.
对于伯努利分布
hθ(x)=E[y∣x;θ]=p(y=1∣x;θ)=ϕ=1+e−η1=1+e−θTx1
对于高斯分布
hθ(x)=E[y∣x;θ]=μ=ησ2=θTxσ2
Softmax Regression
当我们需要分类的对象超过两项时,我们使用多项式分布(multinomial distribution)建模。
y∈{1,2,…,k},参数
ϕ1,ϕ2,…,ϕk,因为
∑i=1kϕi=1→ϕk=1−∑i=1k−1ϕi,
p(y=i;ϕ)=ϕi
为了将多项式分布表示为指数分布,我们定义
T(y)∈Rk−1如下:
T(1)=⎣⎢⎢⎢⎡10⋮0⎦⎥⎥⎥⎤,T(2)=⎣⎢⎢⎢⎡01⋮0⎦⎥⎥⎥⎤,T(k−1)=⎣⎢⎢⎢⎡00⋮1⎦⎥⎥⎥⎤,T(k)=⎣⎢⎢⎢⎡00⋮0⎦⎥⎥⎥⎤
T(y)不是之前的T(y) = y,而是一个变量。我们用
(T(y))i表示T(y)向量的第i个元素。再次使用1{True} = 1;1{False} = 0,那么
(T(y))i=1{y=i}。
p(y;ϕ)=ϕ11{y=1}ϕ21{y=2}…ϕk1{y=k}=ϕ11{y=1}ϕ21{y=2}…ϕk1−∑i=1k−11{y=i}=ϕ1(T(y))1ϕ2(T(y))2…ϕk1−∑i=1k−1(T(y))i=explog(ϕ1(T(y))1ϕ2(T(y))2…ϕk1−∑i=1k−1(T(y))i)=exp((T(y))1log(ϕ1)+(T(y))2log(ϕ2)+⋯+(1−i=1∑k−1(T(y))i)log(ϕk))=exp((T(y))1log(ϕkϕ1)+(T(y))2log(ϕkϕ2)+⋯+log(ϕk))
令
b(y)=1,η=⎣⎢⎢⎢⎢⎡log(ϕkϕ1)log(ϕkϕ2)⋮log(ϕkϕk−1)⎦⎥⎥⎥⎥⎤∈Rk−1,则
a(η)=−log(ϕk)
η=⎣⎢⎢⎢⎢⎡log(ϕkϕ1)log(ϕkϕ2)⋮log(ϕkϕk−1)⎦⎥⎥⎥⎥⎤⇒ηi=log(ϕkϕi){i=1,2,…,k−1}⇒ϕi=ϕkeηi⇒i=1∑kϕi=i=1∑kϕkeηi=1⇒ϕk=∑i=1keηi1⇒ϕi=∑j=1keηjeηi⇒ϕi=∑j=1keθjTxeθiTx
那么对于
[142536](7)
hθ(x)=E[T(y)∣x;θ]=E⎣⎢⎢⎢⎡1{y=1}1{y=2}⋮1{y=k−1x;θ⎦⎥⎥⎥⎤=E⎣⎢⎢⎢⎡ϕ1ϕ2⋮ϕk−1⎦⎥⎥⎥⎤=E⎣⎢⎢⎢⎢⎢⎢⎡∑j=1kexp(θjTx)exp(θ1Tx)∑j=1kexp(θjTx)exp(θ2Tx)⋮∑j=1kexp(θjTx)exp(θk−1Tx)⎦⎥⎥⎥⎥⎥⎥⎤
成称为Softmax回归。
L(θ)=p(y
∣X;θ)=i=1∏mp(y(i)∣x(i);θ)=i=1∏m(ϕ11{y(i)=1}ϕ21{y(i)=2}…ϕk1{y(i)=k})=i=1∏ml=1∏k(ϕl1{y(i)=l})=i=1∏ml=1∏k(∑j=1kexp(θjTx(i))exp(θlTx(i)))1{y(i)=l}⇓
ℓ(θ)=log(L(θ))=log(i=1∏ml=1∏k(∑j=1kexp(θjTx(i))exp(θlTx(i)))1{y(i)=l})=i=1∑mlog(l=1∏k(∑j=1kexp(θjTx(i))exp(θlTx(i)))1{y(i)=l})⇓
∂θp∂ℓ(θ)=∂θp∂log(L(θ))=∂θp∂i=1∑mlog(l=1∏k(∑j=1kexp(θjTx(i))exp(θlTx(i)))1{y(i)=l})