Large Scale Machine Learning大规模机器学习

Gradient Descent with Large Datasets具有大数据集的梯度下降

Learning With Large Datasets学习大型数据集

我们已经知道得到一个高效的机器学习系统的最好的方式之一是用一个低偏差的学习算法然后用很多数据来训练它

但训练大的数据集也有它自己的问题特别是计算量的问题假设我们的训练集的大小m是100,000,000 假设我们要训练一个线性回归模型或者是逻辑回归模型这是梯度下降的规则

当m是一个亿的时候你需要加一亿个项来计算这些导数项和计算一步的梯度下降用求一亿个项目总和的计算量来计算仅仅一步的梯度下降

后面会讲到把这个算法换掉的或者是找一个效率更高的算法来算这个导数

当然在我们训练一个上亿条数据的模型之前我们还应该作为一个很好的检查是去看看用一千个数据是否合适来检查小一些的数据集是不是好用通常的方法是画学习曲线如果你画了学习曲线而且你的训练目标看上去像左边这样这看起来像高方差的学习算法我们会对增加训练集的大小来提高性能更有信心

而相比之下如果你画的学习曲线是右边这样的这看起来像经典的高偏差学习算法那么增加m不是个好办法你应该多加一些特征或者在你的神经网络里加一些隐藏的单元等等所以最后你会变成一个像左边的图

后面我们会看到两个主要的想法第一个叫做随机的梯度下降 第二个叫做映射化简 来处理大数据集

Stochastic Gradient Descent随机梯度下降

对于很多机器学习算法包括线性回归、逻辑回归、神经网络等等算法的实现都是通过得出某个代价函数或者某个最优化的目标来实现的然后使用梯度下降这样的方法来求得代价函数的最小值当我们的训练集较大时梯度下降算法则显得计算量非常大

下面介绍一种跟普通梯度下降不同的方法随机梯度下降(stochastic gradient descent) 用这种方法我们可以将算法运用到较大训练集的情况中

下面是使用梯度下降法来训练某个线性回归模型

在内层循环中你需要用这个式子反复更新参数θ的值多步迭代最终会将参数锁定到全局最小值迭代的轨迹看起来非常快地收敛到全局最小

下面我们依然以线性回归为例但随机梯度下降的思想也可以应用于其他的学习算法比如逻辑回归、神经网络或者其他依靠梯度下降来进行训练的算法中

梯度下降法的问题是当m值很大时如美国有3亿人口计算这个微分项的计算量就变得很大因为需要对所有m个训练样本求和这种梯度下降算法也被称为批量梯度下降(batch gradient descent) “批量”就表示我们需要每次都考虑所有的训练样本如果你真的有这3亿人口的数据存在硬盘里那么这种算法就需要把所有这3亿人口数据读入计算机仅仅就为了算一个微分项而已你需要将这些数据连续传入计算机因为计算机存不下那么大的数据量所以你需要很慢地读取数据然后计算一个求和再来算出微分所有这些做完以后你才完成了一次梯度下降的迭代最后要让算法收敛绝对需要花很长的时间

而随机梯度下降在每一步迭代中不用考虑全部的训练样本 只需要考虑一个训练样本 如图所示它的代价函数的定义有一点区别

随机梯度下降法的第一步是将所有m个训练样本重新排列在i等于1到m中进行循环也就是对所有m个训练样本进行遍历然后进行如上更新实际上就是扫描所有的训练样本首先是我的第一组训练样本(x(1),y(1)) 然后只对这第一个训练样本对它的代价函数计算一小步的梯度下降换句话说我们要关注第一个样本然后把参数θ稍微修改一点使其对第一个训练样本的拟合变得好一点完成这个内层循环以后再转向第二个训练样本以此类推直到完成所有的训练集然后外部这个重复循环会多次遍历整个训练集跟批量梯度下降不同随机梯度下降不需要等到对所有m个训练样本求和来得到梯度项而是只需要对单个训练样本求出这个梯度项

批量梯度下降更新参数θ的收敛过程会倾向于一条近似的直线一直找到全局最小值

随机梯度下降中每一次迭代都会更快每一次迭代只需要保证对一个训练样本拟合好就行了所以看起来它是以某个比较随机、迂回的路径在朝全局最小值逼近实际上随机梯度下降是在某个靠近全局最小值的区域内徘徊而不是直接逼近全局最小值并停留在那点所以通常我们用随机梯度下降法也能得到一个很接近全局最小值的参数

外层循环应该执行多少次呢这取决于训练样本的大小通常一次就够了最多到10次是比较典型的

Mini-Batch Gradient Descent小批量梯度下降

小批量梯度下降算法有时候甚至比随机梯度下降还要快一点

首先来总结一下我们已经讨论过的算法在批量梯度下降中每次迭代我们都要用所有的m个样本 然而在随机梯度下降中每次迭代我们只用一个样本 小批量梯度下降做的介于它们之间准确地说在这种方法中我们每次迭代使用b个样本 b是一个叫做"小批量规模"的参数所以这种算法介于随机梯度下降和批量梯度下降之间 b的一个标准的取值可能是2到100之间的任何一个数

具体来说小批量梯度下降可能比随机梯度下降好仅当你有好的向量化实现时小批量梯度下降的一个缺点是有一个额外的参数b 你需要调试小批量大小因此会需要一些时间但是如果你有一个好的向量化实现这种方法有时甚至比随机梯度下降更快

Stochastic Gradient Descent Convergence随机梯度下降收敛

运行随机梯度下降算法时你如何确保调试过程已经完成并且能正常收敛呢？以及如何调整随机梯度下降中学习速率α的值？

我们确定批量梯度下降已经收敛的一个标准方法是画出最优化的代价函数关于迭代次数的变化

为了检查随机梯度下降的收敛性我们要做的是每1000次迭代运算中我们对最后1000个样本的cost值求平均然后画出来通过观察这些画出来的图我们就能检查出随机梯度下降是否在收敛这是几幅画出来的图的例子

第一幅图：假如你已经画出了最后1000组样本的cost函数的平均值由于它们都只是1000组样本的平均值因此它们看起来有一点嘈杂因此cost的值不会在每一个迭代中都下降如果你得到像这样的图那么你应该判断这个算法是在下降的然后从蓝色箭头的点开始变得平缓说明你的学习算法已经收敛了如果你想试试更小的学习速率(红色曲线) 那么你很有可能看到的是算法的学习变得更慢了代价函数的下降也变慢了但是很有可能会让算法收敛到一个好一点的解注意 随机梯度下降不是直接收敛到全局最小值而是在局部最小附近反复振荡 所以使用一个更小的学习速率最终的振荡就会更小

第二幅图：如果你把这个数 1000 提高到5000组样本那么可能你会得到一条更平滑的曲线增大平均的训练样本数的缺点就是现在每5000个样本才能得到一个数据点因此你所得到的关于学习算法表现的反馈就显得有一些“延迟” 因为每5000个样本才能得到图上的一个数据点而不是每1000个样本就能得到

第三幅图：算法没有很好地学习代价项并没有下降但同样地如果你对这种情况时也用更大量的样本进行平均你很可能会观察到红线所示的情况能看得出实际上代价函数是在下降的只不过蓝线用来平均的样本数量太小了并且蓝线太嘈杂你看不出来代价函数的趋势确实是下降的所以可能用5000组样本来平均比用1000组样本来平均更能看出趋势当然即使是使用一个较大的样本数量比如我们用5000个样本来平均我用另一种颜色来表示即使如此你还是可能会发现这条学习曲线是这样的它还是比较平坦即使你用更多的训练样本如果是这样的话那可能就更肯定地说明不知道出于什么原因算法确实没怎么学习好那么你就需要调整学习速率或者改变特征变量或者改变其他的什么

第四幅图：这是一个很明显的信号告诉你算法正在发散那么你要做的事就是用一个更小一点的学习速率α

当运行随机梯度下降时算法会从某个点开始然后曲折地逼近最小值但它不会真的收敛而是一直在最小值附近徘徊因此你最终得到的参数实际上只是接近全局最小值而不是真正的全局最小值 (学习速率α保持不变)

如果你想让随机梯度下降确实收敛到全局最小值你可以随时间的变化减小学习速率α的值

以上是一种典型的方法来设置α的值但是这里增加了两个额外的参数需要你花时间来确定常数1和常数2上这让算法显得更繁琐因此我们很少采用逐渐减小α的值的方法在随机梯度下降中你看到更多的还是让α的值为常数虽然两种做法的人都有

Advanced Topics

Online Learning在线学习

下面讨论一种新的大规模的机器学习机制叫做 在线学习机制

假定你有一个提供运输服务的公司同时假定你有一个网站让用户们可多次登陆然后他们告诉你他们想从哪里寄出包裹以及包裹要寄到哪里去然后你的网站开出运输包裹的的服务价格比如我会收取$50来运输你的包裹我会收取$20之类的

然后根据你开给用户的这个价格用户接受这个运输服务那么这就是个正样本有时他们会拒绝我们假定我们想要一个学习算法来帮助我们优化我们想给用户开出的价格

我们想要做的就是学习在给出的价格下他们将会选择运输包裹的几率

运行算法如上当有用户访问网站的时候我们会得到一个(x,y)对在线学习算法要做的就是利用刚得到的(x,y)数据对来更新θ 然后我们丢弃这个样本当然如果我们只有少量的用户那么我们就不选择像这样的在线学习算法你可能最好是要保存好所有的数据保存在一个固定的数据集里然后对这个数据集使用某种算法

这种在线学习算法会带来的有趣的效果那就是它可以对正在变化的用户偏好进行调适而且特别的如果随着时间变化因为大的经济环境发生变化用户们可能会开始变得对价格更敏感然后愿意支付又或者各种因素变得对用户的影响更大了如果你开始拥有某一种新的类型的用户涌入你的网站 这样的在线学习算法也可以根据变化着的用户偏好进行调适

举个例子说你有一个在线卖电话的商铺一个卖移动电话或者手机的商铺而且你有一个用户界面可以让用户登陆你的网站并且键入一个搜索条目例如“安卓手机 1080p 摄像头” 那么这些搜索字符可以构建一个特征矢量x 然后我们通过用户的点击率来给相应的用户展示他们最有可能点击的10部手机对于这10部手机中的每一个我们又会得到一个特征矢量x 和 y的取值我们也会观察这些取值这样运行此类网站的一种方法就是连续给用户展示你的十个最佳猜测

所以这就是在线学习机制然后就像我们所看到的我们所使用的这个算法与随机梯度下降算法非常类似唯一的区别的是我们不会使用一个固定的数据集我们会做的是获取一个用户样本从那个样本中学习然后丢弃那个样本并继续下去而且如果你对某一种应用有一个连续的数据流这样的算法可能会非常值得考虑当然在线学习的一个优点就是如果你有一个变化的用户群又或者你在尝试预测的事情在缓慢变化就像你的用户的品味在缓慢变化这个在线学习算法可以慢慢地调试你所学习到的假设将其调节更新到最新的用户行为

Map Reduce and Data Parallelism

之前提到的这些算法都只能在一台计算机上运行但是有些机器学习问题太大以至于不可能只在一台计算机上运行下面介绍进行大规模机器学习的另一种方法称为映射约减 (map reduce) 方法

假设我们要拟合一个线性回归模型或者逻辑回归模型或者其他的什么模型让我们再次从随机梯度下降算法开始吧这就是我们的随机梯度下降学习算法我们将假定m固定为400个样本

根据映射化简的思想一种解决方案是将训练集划分成几个不同的子集我假定我有 4台计算机它们并行的处理我的训练数据如图所示最后当这些计算机全都完成了各自的工作我会将这些临时变量送到一个中心计算服务器这台服务器会将这些临时变量合并起来根据右边的公式来更新参数θj

其实这个公式计算的数值和原先的梯度下降公式计算的数值是完全一样的

总结来说映射约减技术是这么工作的我们有一些训练样本如果我们希望使用4台计算机并行的运行机器学习算法那么我们将训练样本等分尽量均匀地分成4份然后我们将这4个训练样本的子集送给4台不同的计算机每一台计算机对四分之一的训练数据进行求和运算最后这4个求和结果被送到一台中心计算服务器负责对结果进行汇总特别的如果没有网络延时也不考虑通过网络来回传输数据所消耗的时间那么你可能可以得到4倍的加速

如果你打算将映射化简技术用于加速某个机器学习算法也就是说你打算运用多台不同的计算机并行的进行计算那么你需要问自己一个很关键的问题那就是你的机器学习算法是否可以表示为训练样本的某种求和

因此更广义的来说通过将机器学习算法表示为求和的形式或者是训练数据的函数求和形式你就可以运用映射化简技术来将算法并行化这样就可以处理大规模数据了

最后再提醒一点目前我们只讨论了运用映射化简技术在多台计算机上实现并行计算也许是一个计算机集群也许是一个数据中心中的多台计算机但实际上我们也可以将这种技术应用到一台计算机的多核上面他的一个优势是你不必担心网络延时问题

条件是你有一台多核计算机并且使用了某个线性代数函数库某些线性代数函数库会自动利用多个核并行地完成线性代数运算

参考资料

https://www.coursera.org/learn/machine-learning/

斯坦福大学《Machine Learning》第10周学习笔记