1. 输入输出及参数

和线性回归一样，用 特征矩阵 $X$ 来描述所有特征，用参数向量 $\theta$ 来描述所有参数，用输出向量 $y$ 表示所有输出变量：
$X=\begin{bmatrix} x_0^{(1)}&x_1^{(1)}&x_2^{(1)}&···&x_n^{(1)}\\ \\ x_0^{(2)}&x_1^{(2)}&x_2^{(2)}&···&x_n^{(2)}\\ \\:&:&:&···&:\\ \\ x_0^{(m)}&x_1^{(m)}&x_2^{(m)}&···&x_n^{(m)}\\ \end{bmatrix}\ ,\ \theta=\begin{bmatrix} \theta_0\\ \\ \theta_1\\ \\:\\ \\ \theta_n \end{bmatrix}\ ,\ y=\begin{bmatrix} y^{(1)}\\ \\ y^{(2)}\\ \\:\\ \\ y^{(m)} \end{bmatrix}$ $X$ 的维度是 $m*(n+1)$ 且 $x_0=1$ ， $\theta$ 的维度为 $(n+1)*1$ ， $y$ 的维度为 $m*1$ 且 $y^{(i)}=0,1$

2. 假设函数

整个训练集 的 所有假设结果 也可以用一个 $m*1$ 维的向量表示：
$h_\theta(x)=g(X\theta)=\begin{bmatrix} g(x_0^{(1)}\theta_0+x_1^{(1)}\theta_1+x_2^{(1)}\theta_2+···+x_n^{(1)}\theta_n)\\ \\ g(x_0^{(2)}\theta_0+x_1^{(2)}\theta_1+x_2^{(2)}\theta_2+···+x_n^{(2)}\theta_n)\\ \\:\\ \\ g(x_0^{(m)}\theta_0+x_1^{(m)}\theta_1+x_2^{(m)}\theta_2+···+x_n^{(m)}\theta_n)\\ \end{bmatrix}=\begin{bmatrix}h_\theta(x^{(1)})\\ \\ h_\theta(x^{(2)})\\ \\:\\ \\ h_\theta(x^{(m)}) \end{bmatrix}=\hat{y}=\begin{bmatrix}\hat{y}^{(1)}\\ \\ \hat{y}^{(2)}\\ \\:\\ \\ \hat{y}^{(m)} \end{bmatrix}$ 这里引入的新符号(读作y帽) $\hat{y}=h_\theta(x)$ ，有的地方也用 $\hat{y}$ 来表示样本的预测值，跟假设函数 $h_\theta(x)$ 的含义其实一样。

3 代价函数

原始公式： $\begin{aligned} J(θ)&=-\frac{1}{m}\sum_{i=1}^{m} \left[y^{(i)}*\log(h_θ(x^{(i)}))+(1-y^{(i)})*\log(1-h_θ( x^{(i)}))\right]\\ &=-\frac{1}{m}\sum_{i=1}^{m} \left[y^{(i)}*\log(\hat{y}^{(i)})+(1-y^{(i)})*\log(1-\hat{y}^{(i)})\right] \end{aligned}$ 向量化表示为：
$\begin{aligned} J(θ)&=-\displaystyle\frac{1}{m} SUM \left[y*\log(h_\theta(x))+(1-y)*\log(1-h_\theta(x))\right]\\ &=-\displaystyle\frac{1}{m} SUM \left[y*\log(\hat{y})+(1-y)*\log(1-\hat{y})\right] \end{aligned}$ 上式中括号里的计算结果仍是一个向量，因此 $SUM$ 表示对向量的所有项求和，最终得一个标量值。

1.4 梯度下降函数

原公式为：
$\theta_j:=\theta_j-\alpha\frac{1}{m} \displaystyle\sum_{i=1}^{m} ( h_θ( x^{(i)} ) - y^{(i)})x_j^{(i)}$ 现用向量来表示所有参数的更新过程： $\theta=\theta-\alpha\delta$ 其中： $\theta=\begin{bmatrix} \theta_0\\ \\ \theta_1\\ \\:\\ \\ \theta_n \end{bmatrix}\ \ ,\ \ \delta=\frac{1}{m} \begin{bmatrix} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \\ \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_1^{(i)}\\ \\······\\ \\ \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_n^{(i)} \end{bmatrix}$ 又因为：
$\delta=\frac{1}{m} \begin{bmatrix} x_0^{(1)}&x_0^{(2)}&···&x_0^{(m)}\\ \\ x_1^{(1)}&x_1^{(2)}&···&x_1^{(m)}\\ \\:&:&···&:\\ \\ x_0^{(1)}&x_0^{(2)}&···&x_0^{(m)}\\ \end{bmatrix} \begin{bmatrix} h_\theta(x^{(1)})-y^{(1)}\\ \\ h_\theta(x^{(2)})-y^{(2)}\\ \\······\\ \\ h_\theta(x^{(m)})-y^{(m)} \end{bmatrix}=\frac{1}{m}X^T\left [ g(X\theta)-y \right]$ 因此，梯度下降可以表示为：
$\theta=\theta-\alpha\frac{1}{m}X^T\left [ g(X\theta)-y \right]$

Fun'

发布了21 篇原创文章 · 获赞 21 · 访问量 1964

私信关注

吴恩达机器学习（三）逻辑回归 2/2 —— 模型向量化

1. 输入输出及参数

2. 假设函数

3 代价函数

1.4 梯度下降函数

猜你喜欢