一文掌握深度学习（八）——彻底搞懂Logistic回归中的向量化

在上一篇文章中，我们学习了多样本的梯度下降，但是它有一个弊端，就是在编码过程中会使用到循环语句，这个显然不是我们希望见到的，因为做深度学习要处理的数据数量级都很大，采用循环会浪费很多时间，使我们的开发受到了阻碍，而使用向量化就可以解决这个问题，可能从字面上感觉不到向量化要比循环耗时短，下面我们使用numpy来计算下：

import numpy as np
import time

a=np.random.rand(100000)
b=np.random.rand(100000)

start=time.time()
c=np.dot(a,b)
end=time.time()
print('向量化使用的时间为：'+str(1000*(end-start))+'ms')

start=time.time()
for i in range(100000):
    c=a*b
end=time.time()
print('循环使用的时间为：'+str(1000*(end-start))+'ms')

结果如下：

可以看出，采用向量化后运行的时间要远远小于使用循环的时间，所以学习向量化是非常有必要的。

所以我们将用向量来处理多个样本，Let‘s Go！

之前没有向量化的时候，对于多个样本的前向传播，我们会这样写：

而使用了向量化之后，两个式子解决：

$Z=w^{T}\times X+b$

$A=\sigma \left ( Z \right )$

下面来进行说明：

Z是一个向量，用来存储每一个样本计算出的z，即 $Z=[z^{(1)},z^{(2)},...,z^{(i)}]$

X是一个矩阵，用来存储每一个样本的输入x，即 $X=[x^{(1)},x^{(2)},...,x^{(i)}]$

A是一个向量，用来存储每一个样本的z经过激活函数后的得到的a，即 $A=[a^{(1)},a^{(2)},...,a^{(i)}]$

假设有m个样本，每一个样本有两个特征，即 $x^{(i)}=\begin{bmatrix} x_{1}^{(i)}\\ x_{2}^{(i)} \end{bmatrix}$ ，所以X就会使一个矩阵，即 $X=[x^{(1)},x^{(2)},...,x^{(i)}]=\begin{bmatrix} x_{1}^{(1)} & x_{1}^{(2)} & ... &x_{1}^{(i)} \\ x_{2}^{(1)} & x_{2}^{(2)} &... & x_{2}^{(i)} \end{bmatrix}$ ，其中上标代表第i个样本，下表代表第i个特征。