Neural Networks: Representation神经网络：表示

Motivations激励

Non-linear Hypotheses非线性假设

下面举几个例子阐述神经网络算法的目的这几个问题的解决都依赖于研究复杂的非线性分类器

考虑这个监督学习分类的问题我们已经有了对应的训练集如果利用逻辑回归算法来解决这个问题首先需要构造一个包含很多非线性项的逻辑回归函数事实上当多项式项数足够多时那么可能你能够得到一个分开正样本和负样本的分界线当只有两项时比如 x1 x2 这种方法确实能得到不错的结果因为你可以把x1和x2的所有组合都包含到多项式中但是对于许多复杂的机器学习问题涉及的项往往多于两项

房价预测的问题假设现在要处理的是房子在未来半年内能被卖出去的概率这是一个分类问题对于不同的房子有可能就有上百个特征对于这类问题如果要包含所有的二次项在n=100的情况下最终也有5000个二次项随着特征个数n的增加二次项的个数大约以n^2的量级增长因此要包含所有的二次项是很困难的所以这可能不是一个好的做法

而且由于项数过多最后的结果很有可能是过拟合的此外在处理这么多项时也存在运算量过大的问题当然你也可以试试只包含上边这些二次项的子集但是由于忽略了太多相关项在处理类似左上角的数据时不可能得到理想的结果 5000个二次项看起来已经很多了而现在假设包括三次项或者三阶项大概17000个三次项这并不是一个好做法

举个例子关于计算机视觉中的一个问题假设你想要使用机器学习算法来训练一个分类器使它检测一个图像来判断图像是否为一辆汽车我们取出这幅图片中的一小部分将其放大比如图中这个红色方框内的部分当人眼看到一辆汽车时计算机实际上看到的却是这个一个数据矩阵它们表示了像素强度值告诉我们图像中每个像素的亮度值因此对于计算机视觉来说问题就变成了根据这个像素点亮度矩阵来告诉我们这些数值代表一个汽车门把手

具体而言当用机器学习算法构造一个汽车识别器时我们要想出一个带标签的样本集其中一些样本是各类汽车另一部分样本是其他任何东西将这个样本集输入给学习算法以训练出一个分类器训练完毕后我们输入一幅新的图片让分类器判定 “这是什么东西？” 理想情况下分类器能识别出这是一辆汽车

为了理解引入非线性分类器的必要性我们从学习算法的训练样本中挑出一些汽车图片和一些非汽车图片我们从其中每幅图片中挑出一组像素点 pixel1和pixel2

在坐标系中画上更多的新样本用''+"表示汽车图片用“-”表示非汽车图片我们现在需要一个非线性分类器来尽量分开这两类样本这个分类问题中特征空间的维数是多少？假设我们用50*50像素的图片一共2500个像素点因此我们的特征向量的元素数量 n=2500 特征向量X 包含了所有像素点的亮度值如果我们用的是RGB彩色图像每个像素点包含红、绿、蓝三个子像素那么n=7500 因此如果我们非要通过包含所有的二次项来解决这个非线性问题那么这就是式子中的所有条件 xi*xj 连同开始的2500像素总共大约有300万个这计算成本太高了并不是一个解决复杂非线性问题的好办法

Neurons and the Brain神经元和大脑

神经网络产生的原因是人们想尝试设计出模仿大脑的算法从某种意义上说如果我们想要建立学习系统那为什么不去模仿我们所认识的最神奇的学习机器—— 人类的大脑呢神经网络逐渐兴起于二十世纪八九十年代应用得非常广泛但由于各种原因在90年代的后期应用减少了但是最近神经网络又东山再起了其中一个原因是神经网络是计算量有些偏大的算法然而大概由于近些年计算机的运行速度变快才足以真正运行起大规模的神经网络正是由于这个原因和其他一些我们后面会讨论到的技术因素如今的神经网络对于许多应用来说是最先进的技术

当你想模拟大脑时是指想制造出与人类大脑作用效果相同的机器对吧？大脑可以学会去以看而不是听的方式处理图像学会处理我们的触觉我们能学习数学学着做微积分而且大脑能处理各种不同的令人惊奇的事情似乎如果你想要模仿它你得写很多不同的软件来模拟所有大脑告诉我们的这些五花八门的奇妙的事情不过能不能假设大脑做所有这些不同事情的方法 不需要用上千个不同的程序去实现 相反的大脑处理的方法只需要 一个单一的学习算法就可以了？尽管这只是一个假设

不过让我和你分享一些这方面的证据大脑的这一部分这一小片红色区域是你的听觉皮层你现在正在理解我的话这靠的是耳朵耳朵接收到声音信号并把声音信号传递给你的听觉皮层正因如此你才能明白我的话

神经系统科学家做了下面这个有趣的实验把耳朵到听觉皮层的神经切断在这种情况下将其重新接到一个动物的大脑上这样从眼睛到视神经的信号最终将传到听觉皮层如果这样做了那么结果表明听觉皮层将会学会“看” 这里“看”代表了我们所知道的每层含义所以如果你对动物这样做那么动物就可以完成视觉辨别任务它们可以看图像并根据图像做出适当的决定它们正是通过脑组织中的这个部分完成的

右边另一个例子这块红色的脑组织是你的躯体感觉皮层这是你用来处理触觉的如果你做一个和刚才类似的重接实验那么躯体感觉皮层也能学会”看“ 这个实验和其它一些类似的实验被称为神经重接实验从这个意义上说如果人体有同一块脑组织可以处理光、声或触觉信号那么也许存在一种学习算法可以同时处理视觉、听觉和触觉而不是需要运行上千个不同的程序或者上千个不同的算法来做这些大脑所完成的成千上万的美好事情也许我们需要做的就是找出一些近似的或实际的大脑学习算法然后实现它大脑通过自学掌握如何处理这些不同类型的数据在很大的程度上可以猜想如果我们把几乎任何一种传感器接入到大脑的几乎任何一个部位的话大脑就会学会处理它

下面再举几个例子

左上角的这张图是用舌头学会“看”的一个例子它的原理是这实际上是一个名为BrainPort的系统它现在正在FDA (美国食品和药物管理局) 的临床试验阶段它能帮助失明人士看见事物它的原理是你在前额上带一个灰度摄像头面朝前它就能获取你面前事物的低分辨率的灰度图像你连一根线到舌头上安装的电极阵列上那么每个像素都被映射到你舌头的某个位置上可能电压值高的点对应一个暗像素电压值低的点对应于亮像素即使依靠它现在的功能使用这种系统就能让你我在几十分钟里就学会用我们的舌头“看”东西

这是第二个例子关于人体回声定位或者说人体声纳你有两种方法可以实现你可以弹响指或者咂舌头这个我做不好不过现在有失明人士确实在学校里接受这样的培训并学会解读从环境反弹回来的声波模式—这就是声纳如果你搜索 YouTube之后就会发现有些视频讲述了一个令人称奇的孩子他因为癌症眼球惨遭移除虽然失去了眼球但是通过打响指他可以四处走动而不撞到任何东西他能滑滑板他可以将篮球投入篮框中注意这是一个没有眼球的孩子

第三个例子是触觉皮带如果你把它戴在腰上蜂鸣器会响而且总是朝向北时发出嗡嗡声它可以使人拥有方向感用类似于鸟类感知方向的方式

还有一些离奇的例子如果你在青蛙身上插入第三只眼青蛙也能学会使用那只眼睛

因此这将会非常令人惊奇如果你能把几乎任何传感器接入到大脑中大脑的学习算法就能找出学习数据的方法并处理这些数据从某种意义上来说如果我们能找出大脑的学习算法然后在计算机上执行大脑学习算法或与之相似的算法也许这将是我们向人工智能迈进做出的最好的尝试人工智能的梦想就是有一天能制造出真正的智能机器当然我不是教神经网络的介绍它只因为它可能为我们打开一扇进入遥远的人工智能梦的窗户

Neural Networks神经网络

Model Representation I模型表示

运用神经网络时我们该如何表示我们的假设或模型

神经网络是在模仿大脑中的神经元或者神经网络时发明的因此要解释如何表示模型假设我们先来看单个神经元在大脑中是什么样的我们的大脑中充满了这样的神经元神经元是大脑中的细胞其中有两点值得我们注意一是神经元有像这样的细胞主体二是神经元有一定数量的输入神经这些输入神经叫做树突可以把它们想象成输入电线它们接收来自其他神经元的信息神经元的输出神经叫做轴突这些输出神经是用来给其他神经元传递信号或者传送信息的

简而言之神经元是一个计算单元它从输入神经接受一定数目的信息并做一些计算然后将结果通过它的轴突传送到其他节点或者大脑中的其他神经元

这就是所有人类思考的模型：我们的神经元把自己的收到的消息进行计算并向其他神经元传递消息

这是一个非常简单的模型来模拟神经元的工作我们将神经元模拟成一个逻辑单元黄色圆圈类似于神经元一个有s型函数或者逻辑函数作为激励函数的人工神经元在神经网络术语中激励函数只是对类似非线性函数g(z)的另一个术语称呼 θ为模型的参数有时候也叫“权重” x0(总是等于1 偏置单元可有可无) x1 x2 x3 类似于输入神经 h(x)为输出神经

神经网络其实就是这些不同的神经元组合在一起的集合具体来说这里是我们的输入单元x0 x1 x2和 x3 神经元a(2)1 a(2)2 和a(2)3，最后一层输出假设函数h(x)计算的结果

这个例子中我们有一个输入层—第1层一个隐藏层— 第2层和一个输出层—第3层但实际上任何非输入层或非输出层的层就被称为隐藏层

a上标(j) 下标i表示第j层的第i个神经元或激励所谓激励(activation) 是指由一个具体神经元读入计算并输出的值

在这里我们有三个输入单元和三个隐藏单元这样一来参数矩阵控制了我们来自三个输入单元三个隐藏单元的映射因此θ(1)将变成一个3乘4维的矩阵

更一般的如果一个网络在第j 层有Sj个单元在j+1层有Sj+1个单元那么矩阵θ(j) 即控制第j层到第j+1层映射的矩阵的维度为Sj+1 * (Sj+1)

最后在输出层我们还有一个单元它计算 h(x) 这个也可以写成a(3)1

Model Representation II模型表示

前向传播的向量化实现

这些z值都是一个线性组合是输入值x0 x1 x2 x3的加权线性组合我可以定义a(1) 等于向量x

这个计算h(x)的过程也称为前向传播(forward propagation) 这样命名是因为我们从输入层的激励开始然后进行前向传播给隐藏层并计算隐藏层的激励然后我们继续前向传播并计算输出层的激励这个从输入层到隐藏层再到输出层依次计算激励的过程叫前向传播

我们将输入层隐藏掉，可见特征项a1 a2 a3它们是作为输入的函数来学习的具体来说就是从第一层映射到第二层的函数这个函数由其他一组参数θ(1)决定所以在神经网络中它没有用输入特征x1 x2 x3 来训练逻辑回归而是自己训练逻辑回归的输入 a1 a2 a3 可以想象如果在θ(1)中选择不同的参数有时可以学习到一些很有趣和复杂的特征就可以得到一个更好的假设 比使用原始输入 x1 x2或x3时得到的假设更好 下一节会讲为什么

你还可以用其他类型的图来表示神经网络神经网络中神经元相连接的方式称为神经网络的架构所以说架构是指不同的神经元是如何相互连接的