chapter1 绪论

chapter1.1 多项式拟合

离散标签叫做分类，连续标签叫做回归
在多项式拟合的问题中，随着阶数的变大，参数 $M^*$ 通常会变得非常大，造成过拟合现象，因此，通过正则化(regulation)可以降低 $M$ 的参数大小，这样的技术在统计学中叫收缩（shrinkage），在神经网络中称之为权重衰减(weight decay)

chapter1.2.5 重新考虑曲线拟合问题

对于点集 $x=(x_1,x_2,x_3,...x_N)^T$ 和它的对应目标 $t= (t_1,...t_N)^T$ ，在给定 $x_i$ 的情况下，将预测值 $t_i$ 看成均值为真实值 $y_i$ 的高斯分布, 可以得到似然函数： $p (t | x, w, β) = \prod n = 1 N N (t n | y (x n . w ）, β - 1))$ $p(t|x,w,\beta) = \prod_{n=1}^{N} N(t_n| y(x_n.w）,\beta^{-1}))$ ，然后取对数的似然函数可以得到之前进行曲线拟合的时候使用的最小二乘法的公式，这也为最小二乘法提供了从最大似然函数的角度上的依据
如果将上面的结论朝着贝叶斯的方法前进一步，其实就是根据贝叶斯公式在似然函数上加入了参数的先验分布 $p(w|\alpha)$ ，如果该先验分布服从均值为0的高斯分布，那么可以得出 $p (w | α) = (α 2 π) M + 1 2 e x p {- α 2 w T w}$ $p(w|\alpha)={(\frac{\alpha}{2\pi})}^{\frac{M+1}{2}}exp\{-\frac{\alpha}{2} w^Tw\}$ ,其中 $M$ 为参数个数，这种技术称之为最大后验，最大后验概率就是最小化下式 $β 2 \sum n = 1 N {y (x n, w) - t n} 2 + α 2 w T w$ $\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{\alpha}{2}w^Tw$ , 我常见的最后一项并不带进加和公式里面，但是如果从最开始就加入 $p(w|\alpha)$ 我觉得最后一项应该加进加和公式里，这也是我的疑惑，值得注意的是，这仍然不是纯正的贝叶斯观点，因为目前仍然使用的是对 $w$ 的点估计，在纯粹的贝叶斯方法中，需要对所有的 $w$ 进行积分，始终应用概率的加法和乘法原则。

chapter1.5 决策论

三种常见决策方法：最小化错误分类率；最小化期望损失；拒绝选项
生成模型：确定条件密度 $P(x|C_k)$ 判别模型：确定后验概率密度 $P(C_k|x)$
判别函数分类和概率无关，可对应到支持向量机分类
回归问题的估计函数： $y (x) = E t [t | x]$ $y(x)=\mathbb{E_t}[t|x]$ , 这一点可以对应到逻辑斯蒂回归的目标函数为 $P(y=1| \varphi)$

chapter4 分类的线性模型

chapter4.2 概率生成模型

概率生成模型是对类条件概率密度 $p(x|C_k)$ 和类先验概率密度 $p(C_k)$ 建模，然后使用这两个概率密度通过贝叶斯定力计算后验概率密度 $p(C_k|x)$
考虑二分类的情形，类别 $C_1$ 的后验概率可以写成：

p (C 1 | x) = p ( x | C 1 ) p ( C 1 ) p ( x | C 1 ) p ( C 1 ) + p ( x | C 2 ) p ( C 2 )

$p(C_1|x) = \frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}$

= 1 1 + e x p ( - α ) = σ (α)

$=\frac{1}{1+exp(-\alpha)}=\sigma(\alpha)$ 其中

α = l n (p ( x | C 1 ) p ( C 1 ) p ( x | C 2 ) p ( C 2 ))

$\alpha = ln(\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)})$ 且

σ $\sigma$ 定义为：

σ (α) = 1 1 + e x p ( - α )

$\sigma(\alpha) = \frac{1}{1+exp(-\alpha)}$
对于多类，我们有：

p (C k | x) = p ( x | C k ) p ( C k ) \sum j e x p ( α j ) = e x p ( α k ) \sum j e x p ( α j )

$p(C_k|x)=\frac{p(x|C_k)p(C_k)}{\sum_{j}^{}exp(\alpha_j)}=\frac{exp(\alpha_k)}{\sum_{j}exp(\alpha_j)}$ 其中

α k = l n (p (x | C k) p (C k))

$\alpha_k = ln(p(x|C_k)p(C_k))$

4.2.1 连续输入

假设类条件概率密度是高斯分布，且假设所有的类别的协方差矩阵相同，这样类别 $C_k$ 的类条件概率是：

p (x | C k) = 1 ( 2 π ) D 2 1 | \sum | 1 2 e x p {- 1 2 (x - μ k) T \sum - 1 (x - μ k)}

$p(x|C_k) = \frac{1}{(2\pi)^\frac{D}{2}} \frac{1}{|\sum|^\frac{1}{2}}exp\{-\frac{1}{2}(x-\mu_k)^T{\sum}^{-1}(x-\mu_k)\}$ 考虑两类情形，则有：

p (x | C k) = σ (w T x + w 0)

$p(x|C_k) =\sigma(w^Tx+w_0)$ 其中

w = \sum - 1 (μ 1 - μ 2)

$w={\sum}^{-1}(\mu_1-\mu_2)$

w 0 = - 1 2 μ T 1 \sum - 1 μ 1 + 1 2 μ T 2 \sum - 1 μ 2 + l n (p ( C 1 ) p ( C 2 ))

$w_0=-\frac{1}{2}\mu_1^T{\sum}^{-1}\mu_1+\frac{1}{2}\mu_2^T{\sum}^{-1}\mu_2+ln(\frac{p(C_1)}{p(C_2)})$ 对于多类情况，则有

α k (x) = w T k x + w k 0

$\alpha_k(x)=w_k^Tx+w_{k0}$ 其中

w k = \sum - 1 μ k

$w_k={\sum}^{-1}\mu_k$

w k 0 = - 1 2 μ T k \sum - k μ 1

$w_{k0} =-\frac{1}{2}\mu_k^T{\sum}^{-k}\mu_1$
这些说明了，对于连续的输入，其概率公式 $P(C_K|x)$ 可以表示为线性模型

4.2.2最大似然解

4.3概率判别式模型

根据上一节的内容，

p (C 1 | φ) = y (φ = σ (w T φ))

$p(C_1|\varphi) =y(\varphi=\sigma(w^T\varphi))$ 对于数据集

φn,tn $\varphi_n,t_n$ ,其中

tn∈{0,1} $t_n\in\{0,1\}$ 有似然函数

p (t | w) = \prod n = 1 N y t n n {1 - y n} 1 - t n

$p(t|w) = \prod_{n=1}^{N}y_n^{t_n}\{1-y_n\}^{1-t_n}$ ， 似然函数的负对数即为交叉熵误差函数

简单的PRML阅读笔记