机器学习(周志华) 参考答案第十二章计算理论学习

机器学习(周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

    从三个方面来确定泛化误差的上界，确定学习的可行性。

1.试证明Jensen不等式：对任意凸函数 $f(x)$ ，有 $f(E(x)) \leq E(f(x))$ 。

显然，对任意凸函数 $f(x)$ ，必然有 $f(αx_1+(1-α)x_2) \leq αf(x_1)+(1-α)f(x_2)$

$f(E(x))=f(\frac{1}{m}\sum_i^mx_i)=f(\frac{m-1}{m}\frac{1}{m-1}\sum_i^{m-1}x_i+\frac{1}{m}x_i)$

取 $α=\frac{m-1}{m}$ ，

所以： $f(E(x)) \leq \frac{m-1}{m}f(\frac{1}{m-1}\sum_i^{m-1}x_i)+\frac{1}{m}f(x_m)$

以此类推得：
$f(E(x)) \leq \frac{1}{m}f(x_1)+\frac{1}{m}f(x_2)+.......+\frac{1}{m}f(x_m)=E(f(x))$

2.试证明引理12.1。

引理(12.1)若训练集 $D$ 包含 $m$ 个从分布 $Ɗ$ 上独立同分布采样而得的样例， $0<ε<1$ ,则对任意 $h \in H$ ，有 $P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}$ 。

已知Hoeffding不等式：若 $x_1,x_2....x_m$ 为m个独立的随机变量，且满足 $0 \leq x_i \leq 1$ ，则对任意ε>0，有

$P(|\frac{1}{m}\sum_i^mx_i-\frac{1}{m}\sum_i^mE(x_i)|\geq ε) \leq 2e^{-2mε^2}$ 。

将 $x_i$ 替换为损失函数 $l(h(x_i) \neq y_i)$ ，显然 $0 \leq l(h(x_i) \neq y_i) \leq 1$ ，且独立。

带入Hoeffding不等式得：
$P(|\frac{1}{m}\sum_i^ml(h(x_i) \neq y_i)-\frac{1}{m}\sum_i^mE(l(h(x_i) \neq y_i))|\geq ε) \leq 2e^{-2mε^2}$

其中 $\hat{E}(h)=\frac{1}{m}\sum_i^ml(h(x_i) \neq y_i)$

$E(h) =P_{x \in Ɗ}l(h(x) \neq y) =E(l(h(x) \neq y)) = \frac{1}{m}\sum_i^mE(l(h(x_i) \neq y_i))$

所以有： $P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}$ 。

3.试证明推论12.1。

推论(12.1)：若训练集 $D$ 包含 $m$ 个从分布 $Ɗ$ 上独立同分布采样而得的样例， $0<ε<1$ ,则对任意 $h \in H$ ，式(12.18)以至少 $1-δ$ 的概率成立。
式(12.18)： $\hat{E}(h)-\sqrt{\frac{ln(2/δ)}{2m}} \leq E(h) \leq \hat{E}(h)+\sqrt{\frac{ln(2/δ)}{2m}}$

有引理(12.1)可知， $P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}$ 成立

即 $P(|\hat{E}(h)-E(h) |\leq ε) \leq 1-2e^{-2mε^2}$

取 $δ=2e^{-2mε^2}$ ，则 $ε=\sqrt{\frac{ln(2/δ)}{2m}}$

所以 $|\hat{E}(h)-E(h) |\leq \sqrt{\frac{ln(2/δ)}{2m}}$ 的概率不小于 $1-δ$
整理得： $\hat{E}(h)-\sqrt{\frac{ln(2/δ)}{2m}} \leq E(h) \leq \hat{E}(h)+\sqrt{\frac{ln(2/δ)}{2m}}$ 以至少 $1-δ$ 的概率成立。

4.试证明： $R^d$ 空间中线性超平面构成的假设空间的VC维是d+1。

线性空间超平面公式为 $w^Tx+b=0$ ，超平面将空间分为二块，即二分类。
取 $R^d$ 空间中不共超平面的d+1个点，为了简化，假设是各坐标轴基向量和原点。
设A是 $(d+1)*(d+1)$ 矩阵，第一列是b的系数1,第二列起是各个点的坐标。
$X=\begin{vmatrix}1 & 0 & 0 & ... & 0\\ 1& 1 & 0 & ... & 0\\ 1& 0 & 1 & ... & 0\\...& ... & ... & ... & ...\\ 1& 0 & 0 & ... & 1\end{vmatrix}，w=\begin{vmatrix}b\\ w_1\\ w_2\\...\\ w_d\end{vmatrix}$
要证明的是，对于任意的 $y$ ，存在 $w$ 使得 $Xw=y$ 成立。
由于X是可逆矩阵，可以得 $w=X^{-1}y$ 使得 $Xw=y$ 成立。所以VC维至少是d+1。
由于 $R^d$ 空间中的d+2个点必然线性相关，将第d+2个点写成前n+1个点的线性组合：
$x_{d+2}=\sum_i^{d+1}p_ix_i$ ，
则： $y_{d+2}=\sum_i^{d+1}p_iy_i$
对任意的 $y_i(i \leq d+1)$ ，取 $p_i=sign(y_i)$ ，得到 $y_{d+2}>0$ 恒成立，所以此时 $x_{d+2}$ 无法被打散。
即VC维小于d+2。
所以 $R^d$ 空间中线性超平面构成的假设空间的VC维是d+1。

5.试计算决策树桩假设空间的VC维。

如果是非连续属性，通过决策树一次划分无法确定节点个数，可能导致VC维无限大。
仅考虑连续属性单变量的决策树桩。
由于决策树的划分是与坐标轴平行的超平面，显然平面上的2个点是可以被打散的，即VC维大于等于2。
对于平面的3各点，如果其中两个点的连线与一条坐标轴平行，另两个点的连线与另一坐标轴平行。比如 $(0,0),(0,1),(1,0)$ 三个点，无法通过一个与坐标轴平行的超平面来划分。所以VC维小于3。
所以决策树桩假设空间的VC维是2。

6.决策树分类器的假设空间VC维可以为无穷大。

由于决策树如果不限制伸展，会包含整个假设空间。对任意多的样本，决策树可以使得训练误差为0，所以VC维是无穷大。

7.试证明：最近邻分类器的假设空间VC维为无穷大。

最近邻分类器，也就是1NN，总是会把自己分类成自己的样本分类，所以对任何数目的样本训练误差恒为0。如图所示
1NN

8.试证明常数函数c的Rademacher的复杂度为0。

常数函数c的Rademacher的复杂度为 $\hat{R}_Z(C)=E_σ[\frac{1}{m}σ_iC(z_i)]$
其中 $σ_i$ 是随机变量，以0.5的概率取1，0.5的概率取-1。
所以 $E(σ_i)=0$
$\hat{R}_Z(C)=E_σ[\frac{1}{m}\sum_i^mσ_iC(z_i)]=\frac{c}{m}\sum_i^mE[σ_i]=0$

9.给定函数空间 $F_1,F_2$ ，试证明Rademacher复杂度 $R_m(F_1+F_2) \leq R_m(F_1)+R_m(F_2)$ 。

$R_m(F_1+F_2)=E_{Z \in Ƶ:|Z|=m}[\hat{R}_Z(F_1+F_2)]$

$\hat{R}_Z(F_1+F_2)=E_σ[sup_{f_1 \in F_1,f_2 \in F_2}\frac{1}{m}\sum_i^mσ_i(f_1(z_i)+f_2(z_i))]$

当 $f_1(z_i)f_2(z_i) < 0$ 时， $σ_i(f_1(z_i)+f_2(z_i)) < σ_{i1}f_1(z_i)+σ_{i2}f_2(z_i)$

当 $f_1(z_i)f_2(z_i) \geq 0$ 时， $σ_i(f_1(z_i)+f_2(z_i)) = σ_{i1}f_1(z_i)+σ_{i2}f_2(z_i)$

所以 $\hat{R}_Z(F_1+F_2) \leq \hat{R}_Z(F_1) +\hat{R}_Z(F_2)$

即： $R_m(F_1+F_2) \leq R_m(F_1)+R_m(F_2)$ 。

10.考虑定理12.8，试讨论通过交叉验证法来估计学习算法泛化能力的合理性。

K折交叉验证，当K=m时，就成了留一法。
由式(12.59)： $l(Ƹ,D) \leq l_{loo}(Ƹ,D)+β+(4mβ+M)sqrt{\frac{ln(1/δ)}{2m}}$
取 $ε=β+(4mβ+M)sqrt{\frac{ln(1/δ)}{2m}}$ 时，可以得到：

$l(Ƹ,D) - l_{loo}(Ƹ,D) \leq ε$ 以至少1-δ/2的概率成立，所以留一法有不错的泛化能力。
前提条件是 $Ƹ$ 对于损失函数 $l$ 满足β均匀稳定性，且β应该是O(1/m)这个量级。
仅拿出一个样本，可以保证很小的β。
随着K的减小，训练用的样本会减少，β逐渐增大，当β超出O(1/m)量级时，交叉验证就变得不合理了。