Advice for Applying Machine Learning应用机器学习的建议

Evaluating a Learning Algorithm评估学习算法

Deciding What to Try Next 决定接下来要做什么

假如你在开发一个机器学习系统或者想试着改进一个机器学习系统的性能你应如何决定？

使用预测房价的学习例子假如你已经完成了正则化线性回归也就是最小化代价函数J的值假如在你得到你的学习参数以后如果你要将你的假设函数放到一组新的房屋样本上进行测试假如说你发现在预测房价时产生了巨大的误差现在你的问题是要想改进这个算法接下来应该怎么办？

方法一：使用更多的训练样本

方法二：尝试选用更少的特征集

方法三：……

我们列出以上的优化单子每一种尝试都可能会花费你大量的时间和精力，大多数人用来选择这些方法的标准是凭感觉的但是最后的结果却很糟糕，因此我们希望在花费大量时间完成这些工作之前我们就能知道其效果如何

幸运的是有一系列简单的方法能让你事半功倍排除掉单子上的至少一半的方法留下那些确实有前途的方法同时也有一种很简单的方法只要你使用就能很轻松地排除掉很多选择从而为你节省大量不必要花费的时间

它们被称为"机器学习诊断法" “诊断法”的意思是这是一种测试法你通过执行这种测试能够深入了解某种算法到底是否有用这通常也能够告诉你要想改进一种算法的效果什么样的尝试才是有意义的这些诊断法的执行和实现通常也是需要花费很多时间但是它们是值得的

Evaluating a Hypothesis 评估一个假设

下面介绍怎样用你学过的算法来评估假设函数并以此为基础来讨论如何避免过拟合和欠拟合的问题

当我们确定学习算法的参数的时候我们考虑的是选择参量来使训练误差最小化但是过拟合假设函数并不是好事那么该如何判断一个假设函数是过拟合的呢？

特征变量只有一个的时候我们可以对假设函数 h(x) 进行画图然后观察图形趋势但对于特征变量很多的这种一般情况想要通过画出假设函数来进行观察就会变得很难甚至是不可能实现因此我们需要另一种方法来评估我们的假设函数如下给出了一种评估假设函数的标准方法

假设我们有一组数据组为了确保我们可以评估我们的假设函数我们要做的是将这些数据分成两部分训练集和测试集其中一种典型的分割方法是按比例 7:3划分如果这组数据有某种规律或顺序的话要随机选择

你通过以下步骤训练和测试你的学习算法首先对70%的训练集进行学习得到参数θ 也最小化训练误差J(θ) 然后通过30%的测试集来计算出测试误差来评估你的学习算法，以上左边是线性回归问题，右边是逻辑回归问题，它们有个不同就是，逻辑回归问题在计算出测试误差的时候，不再是使用代价函数，而是使用叫误分类率也被称为0/1错分率的方式 0/1表示了你预测到的正确或错误样本的情况

Model Selection and Train/Validation/Test Sets模型选择和训练/验证/测试集

假如你想要确定对于某组数据最合适的多项式次数是几次怎样选用正确的特征来构造学习算法或者假如你需要正确选择学习算法中的正则化参数λ 你应该怎样做呢？这些问题我们称之为模型选择问题在我们对于这一问题的讨论中我们还将提到如何将数据分为三组也就是训练集、验证集和测试集 而不仅仅是前面提到的两组数据

我们先来考虑模型选择问题假如说你现在要选择能最好地拟合你数据的多项式次数换句话说你应该选择一次函数二次函数还是三次函数呢等等一直到十次函数这里用 d 来表示你应该选择的多项式次数所以除了你要确定的参数θ之外你还要考虑确定一个参数d 第一个选择是 d=1 也就表示线性(一次)方程我们也可以选择d=2或者3 等等一直到d=10 因此我们想确定这个多出来的参数d最适当的取值

具体地说比如你想要选择一个模型那就从这10个模型中选择一个最适当的多项式次数并且用这个模型进行估计预测你的假设能否很好地推广到新的样本上那么你可以这样做你可以先选择第一个模型然后求训练误差的最小值 这样你就会得到一个参数向量θ 然后你再选择第n个模型 n次函数模型进行同样的过程这样你会得到另一个参数向量 θ 为了区别这些不同的参数向量θ 我想用上标(1) 上标(2)来表示这里的上标(n)表示的是在调整第n个模型也就是n次函数在和训练数据拟合的过程中得到的参数

接下来我们要做的是对所有这些模型 求出测试集误差 因此我可以算出 Jtest(θ(1)) Jtest(θ(2)) Jtest(θ(3)) 以此类推也就是对于每一个模型对应的假设都计算出其作用于测试集的表现如何接下来为了确定选择哪一个模型最好我要做的是看看这些模型中 哪一个对应的测试集误差最小 那么对于这一个例子我们假设最终选择了五次多项式模型

这里有一个问题是这样做不能公平地说明我的假设推广到一般时的效果 其原因在于我们刚才是使用的测试集跟假设拟合来得到的多项式次数d 这个参数这也就是说 我们选择了一个能够最好地拟合测试集的参数d的值 因此我们的参数向量θ(5) 在拟合测试集时的结果很可能导致一个比实际泛化误差更完美的预测结果

同样用训练集来拟合得出的参数d 也不能较为公平地预测出假设函数的在遇到新样本时的表现为了解决这一问题在模型选择中如果我们想要评价某个假设我们通常采用以下的方法

给定某个数据集将其分为三段第一部分还是叫训练集 所以我们还是称这部分为训练集第二部分我把它叫做交叉验证集（cross validation set）用CV来简写“交叉验证” 有时候也直接叫验证集不叫交叉验证集最后一部分依然和以前一样是测试集 同时一种典型的分割比例是 60%的训练集 20%的交叉验证集 20%的测试集这个比例可以稍微调整但这种分法是最典型的

我们还是有这样一些测试集样本那么我们的模型选择问题是这样的和之前使用测试集来选择模型不同我们现在要使用验证集来选择模型也就是选择使得Jcv最小的那个假设假设四次函数的模型有最小的交叉验证误差也就是说拟合出最好的系数d等于4 并且我们是通过交叉验证集来完成的因此这样一来这个参数d 这个多项式的次数就没有跟测试集进行拟合这样我们就回避了测试集的嫌疑我们可以光明正大地使用测试集来估计所选模型的泛化误差了好的这就是模型选择了

Bias vs. Variance偏差与方差

Diagnosing Bias vs. Variance诊断偏差与方差

本节要点：如何区分过拟合(高方差)和欠拟合(高偏差)，从而来指导改进学习算法的多项式次数

当你运行一个学习算法时如果这个算法的表现不理想那么多半是出现两种情况要么是偏差比较大 要么是方差比较大 换句话说出现的情况要么是欠拟合(高偏差) 要么是过拟合(高方差) 那么这两种情况哪个和偏差有关哪个和方差有关或者是不是和两个都有关搞清楚这一点非常重要因为能判断出现的情况是这两种情况中的哪一种其实是一个很有效的指示器指引着可以改进算法的最有效的方法和途径

上面我们来画出如下这个示意图横坐标上表示的是多项式的次数我们把训练集误差Jtrain 和交叉验证集误差Jcv 画在这个坐标中d等于1时欠拟合Jcv较大，d等于6时过拟合Jcv也较大 d等于2时拟合得较好Jcv最小如果你画出Jtest(θ) 你也将得到一条类似Jcv(θ)的曲线

这样一幅图同时也帮助我们更好地理解偏差和方差的概念具体来说假设你得出了一个学习算法而这个算法并没有表现地如你期望那么好所以你的交叉验证误差或者测试集误差都很大我们应该如何判断此时的学习算法正处于高偏差的问题还是高方差的问题左边的这一端对应的就是高偏差的问题也就是你使用了一个过于小的多项式次数比如d等于1 但实际上我们需要一个较高的多项式次数来拟合数据相反地右边这一端对应的是高方差问题也就是说多项式次数d 对于我们的数据来讲太大了这幅图也提示了我们怎样区分这两种情况

结论总结

高偏差 - 欠拟合 - 交叉验证误差和训练误差都会很大 - 多项式次数太低

高方差 - 过拟合 - 训练误差会很小 - 交叉验证误差》训练误差 - 多项式次数太高

Regularization and Bias/Variance正则化和偏差/方差

我们知道我们正则化可以有效地防止过拟合但正则化跟算法的偏差和方差又有什么关系呢？下面更深入地探讨一下偏差和方差的问题讨论一下两者之间是如何相互影响的以及和正则化之间的相互关系

假如我们要对这样一个高阶多项式进行拟合为了防止过拟合现象我们要使用一个正则化项因此我们试图通过这样一个正则化项来让参数的值尽可能小正则化项的求和范围照例取为 j 等于1到 m 而非 j 等于0到 m 然后我们来分析以下三种情形

第一种情形是正则化参数 λ 取一个比较大的值比如 λ 的值取为10000甚至更大在这种情况下所有这些参数 θ1 θ2 θ3 等等将被大大惩罚其结果是这些参数的值将近似等于0 并且假设模型 h(x) 的值将等于或者近似等于 θ0 因此我们最终得到的假设函数应该是这个样子近似是一条平滑的直线因此这个假设处于高偏差对数据集欠拟合(underfit) 因此一条水平直线对这个数据集来讲不是一个好的假设

与之对应的另一种情况是 λ值很小比如说 λ 的值等于0 在这种情况下如果我们要拟合一个高阶多项式的话那么我们通常会处于过拟合(overfitting)的情况

只有当我们取一个中间大小的既不大也不小的 λ 值时我们才会得到一组合理的对数据刚好拟合的 θ 参数值那么我们应该怎样自动地选择出一个最合适的正则化参数 λ 呢？

这里我们的模型和学习参数以及最优化目标是这样的注意Jtrain Jcv Jtest的定义和没有正则化的Jθ是一样的(后面我们做选择参数 λ的比较计算时，都不考虑正则化项，只有最小化代价函数Jθ时考虑λ)

下面就是我们自动选取正则化参数 λ 的方法通常我的做法是选取一系列我想要尝试的 λ 值因此首先我可能考虑不使用正则化的情形以及一系列我可能会试的值比如说我可能从0.01 0.02 0.04开始一直试下去通常我会将步长设为2倍速度增长直到一个比较大的值在本例中以两倍步长递增的话我们最终取值10.24 实际上我们取的是10 但已经非常接近了因为小数点后的24对最终的结果不会有太大影响因此这样我就得到了12个不同的正则化参数 λ 对应的12个不同的模型

得到这12组模型后接下来我们要做的事情是选用第一个模型也就是 λ 等于0 然后最小化我们的代价函数 J(θ) 这样我们就得到了某个参数向量 θ 我使用θ上标(1) 来表示第一个参数向量θ 然后我再取第二个模型 λ 等于0.01的模型最小化代价函数得到一个完全不同的参数向量 θ 用 θ(2)来表示以此类推一直到最后一个 λ 等于10或10.24的模型对应 θ(12)

接下来我就可以用交叉验证集来评价这些假设和参数θ 了因此我可以从第一个模型开始然后是第二个模型对每一个不同的正则化参数 λ 进行拟合然后用交叉验证集来评价每一个模型也即测出每一个参数 θ 在交叉验证集上的平均误差平方和然后我就选取这12个模型中交叉验证集误差最小的那个模型作为最终选择

对于本例而言假如说最终我选择了 θ(5) 也就是五次多项式因为此时的交叉验证集误差最小做完这些最后如果我想看看该模型在测试集上的表现我可以用经过学习得到的模型 θ(5) 来测出它对测试集的预测效果如何再次重申这里我们依然是用交叉验证集来拟合模型这也是为什么我之前预留了一部分数据作为测试集的原因这样我就可以用这部分测试集比较准确地估计出我的参数向量 θ 对于新样本的泛化能力这就是模型选择在选取正则化参数 λ 时的应用

当我们改变正则化参数 λ 的值时交叉验证集误差和训练集误差会随之发生怎样的变化？

这里我们把训练误差和交叉验证集误差都定义为不包括正则化项如果 λ 的值很小那也就是说我们几乎没有使用正则化因此我们有很大可能处于过拟合 - 高方差训练误差小验证误差大 而如果 λ 的值取的很大的时候处于高偏差 - 欠拟合训练误差大验证误差大

对于真实的数据你得到的曲线可能比这看起来更凌乱会有很多的噪声对某个实际的数据集你或多或少能看出像这样的一个趋势通过绘出这条曲线通过交叉验证集误差的变化趋势你可以用自己选择出或者编写程序自动得出能使交叉验证集误差最小的那个点然后选出那个与之对应的参数 λ 的值

Learning Curves学习曲线

学习曲线是一种很好的工具用来判断某一个学习算法是否处于偏差方差问题或是二者皆有

为了绘制一条学习曲线通常先绘制出Jtrain 或者Jcv 将其绘制成一个关于训练集样本总数m的函数但我要自己取一些m的值也就是说我要自行对m的取值做一点限制比如说我取10 20或者 30 40组训练集然后绘出训练集误差以及交叉验证集误差

好的那么我们来看看这条曲线绘制出来是什么样子假设我只有一组训练样本也即m=1 并且假设使用二次函数来拟合模型此时其误差一定为0 当m等于1 m=2 或m=3时对训练集数据进行预测得到的训练集误差都将等于0 这里假设我不使用正则化当然如果使用正则化那么误差就稍大于0 当训练样本容量m很小的时候训练误差也会很小 当m等于4 m等于5的情况这时候再用二次函数来拟合好像效果有下降但还是差强人意而当训练集越来越大的时候你不难发现要保证使用二次函数的拟合效果依然很好就显得越来越困难了平均训练误差是逐渐增大的因此如果你画出这条曲线你就会发现训练集误差随着m的增大而增大

那么交叉验证集误差的情况如何呢？当训练集很小的时候泛化程度不会很好意思是不能很好地适应新样本因此Jcv和Jtest比较大当我使用一个更大的训练集时我才有可能得到一个能够更好拟合数据的可能的假设 Jcv和Jtest慢慢变小因为你使用的数据越多你越能获得更好地泛化表现

上图左边是高偏差时的学习曲线，结论：

即使你不断增大m的值你基本上还是会得到的一条差不多的直线只要训练集样本容量值达到或超过了那个特定的数值交叉验证集误差和测试集误差就趋于不变这样你会得到最能拟合数据的那条直线高偏差的情形反映出的问题是交叉验证集和训练集误差最终都很大 选用更多的训练集数据对于改善算法表现无益 这样可以让你避免把时间浪费在想收集更多的训练样本因为再多的数据也是无意义的

右边是高方差时的学习曲线

假设我们使用一个很小的lambda值可能不等于0 但足够小的lambda 那么很显然我们会对这组数据拟合得非常非常好如果训练集样本容量很小时训练集误差Jtrain 将会很小随着训练集样本容量的增加 Jtrain的值会随之增大但总的来说训练集误差还是很小交叉验证集误差将会一直都很大即便我们选择一个比较合适恰当的训练集样本数在训练集误差和交叉验证集误差之间有一段很大的差距 而这个曲线图也反映出 如果我们要考虑增大训练集的样本数 这两条学习曲线蓝色和红色的两条曲线正在相互靠近训练集误差很可能会逐渐增大而交叉验证集误差则会持续下降当然我们最关心的还是交叉验证集误差或者测试集误差因此 使用更多的训练集数据对改进算法的表现事实上是有效果的 它能告诉你是否有必要花时间来增加更多的训练集数据

结论总结：欠拟合时，增加样本无意义；过拟合时，增加样本可能有帮助

Deciding What to Do Next Revisited决定下一步该做什么

我们使用正则化的线性回归拟合模型却发现该算法没有达到预期效果我们提到我们有如下这些选择那么如何判断哪些方法更可能是有效的呢

第一种方法是使用更多的训练集数据这种方法对于高方差的情况是有帮助的如果处于高偏差则不会有太明显的帮助所以你应该先画出学习曲线然后看出你的模型应该至少有那么一点方差问题也就是说你的交叉验证集误差应该比训练集误差大一点

第二种方法是少选几种特征这同样是对高方差时有效如果你的模型处于高偏差问题那么使用更少的特征不会有任何帮助

第三种方法是选用更多的特征一般可以帮助解决高偏差问题所以如果你需要增加更多的特征时一般是由于你现有的假设函数太简单因此我们才决定增加一些别的特征来让假设函数更好地拟合训练集类似的

第四种方法是增加更多的多项式特征这实际上也是属于增加特征因此也是用于修正高偏差问题

第四种方法是增大和减小λ 减小λ可以修正高偏差而增大λ的值解决高方差

如果你要进行神经网络的拟合其中一个选择是选用一个相对简单的网络结构比如说只有一个隐藏层或者可能相对来讲比较少的隐藏单元因此像这样的一个简单的神经网络参数就不会很多很容易出现欠拟合 这种比较小型的神经网络其最大优势在于计算量较小 与之相对的另一种情况是相对较大型的神经网络结构 要么隐藏层单元比较多比如这一层中的隐藏单元数就很多要么隐藏层比较多因此这种比较复杂的神经网络参数一般较多也更容易出现过拟合 这种结构的一大劣势计算量较大最主要的问题还是它更容易出现过拟合现象事实上如果你经常应用神经网络特别是大型神经网络的话你就会发现越大型的网络性能越好但如果发生了过拟合你可以使用正则化的方法来修正过拟合 一般来说使用一个大型的神经网络并使用正则化来修正过拟合问题通常比使用一个小型的神经网络效果更好

Machine Learning System Design机器学习系统设计

Building a Spam Classifier构建垃圾邮件分类器

Prioritizing What to Work On 确定工作内容的优先级

举一个垃圾邮件分类的例子假如你想建立一个垃圾邮件分类器假设我们已经有一些加过标签的训练集包括标注的垃圾邮件表示为y=1 和非垃圾邮件表示为y=0 我们如何以监督学习的方法来构造一个分类器来区分垃圾邮件和非垃圾邮件呢？

为了应用监督学习我们首先必须确定的是如何用邮件的特征构造向量x 给出训练集中的特征x和标签y 我们就能够训练出某种分类器比如用逻辑回归的方法

这里有一种选择邮件的一些特征变量的方法比如说我们可能会想出一系列单词能够用来区分垃圾邮件或非垃圾邮件比如说如果有封邮件包含单词"deal(交易)" "buy(买)" "discount(折扣)"那么它就很有可能是一封垃圾邮件如果一封邮件中包含了我的名字"Andrew" 说明这封邮件不太可能是垃圾邮件因为某些原因我认为 "now(现在)"这个单词表明了这封邮件可能并不是垃圾邮件因为我经常收到一些很紧急的邮件当然还有别的单词

我们可以选出这样成百上千的单词给出一封这样的邮件我们可以将这封邮件用一个特征向量来表示方法如图

我选择了100个单词用于表示是否可能为垃圾邮件所以这个特征向量x 的维度是100 并且如果这个特定的单词即单词 j 出现在这封邮件中那么每一个特征变量 xj 的值为1 反之 xj为0

虽然我所描述的这个过程是我自己选取的100个单词但是在实际工作中最普遍的做法是遍历整个训练集然后在训练集中选出出现次数最多的n个单词 n一般介于10,000和50,000之间然后把这些单词作为你要用的特征因此不同于手动选取这些单词会构成特征这样你就可以用它们来做垃圾邮件分类

如果你正在构造一个垃圾邮件分类器你应该会面对这样一个问题那就是你最该去使用哪一种改进你的方法从而使得你的垃圾邮件分类器具有较高的准确度从直觉上讲是要收集大量的数据生成了这个叫做 data 的对象是吧？事实上确实好多人这么做很多人认为收集越多的数据算法就会表现的越好

就垃圾邮件分类而言有一个叫做"Honey Pot"的项目它可以建立一个假的邮箱地址故意将这些地址泄露给发垃圾邮件的人这样就能收到大量的垃圾邮件你看这样的话我们就能得到非常多的垃圾邮件来训练学习算法但是在前面的课程中我们知道大量的数据可能会有帮助也可能没有

对于大部分的机器学习问题还有很多办法用来提升机器学习的效果比如对于垃圾邮件而言也许你会想到用更复杂的特征变量像是邮件的路径信息这种信息通常会出现在邮件的标题中因此垃圾邮件发送方在发送垃圾邮件时他们总会试图让这个邮件的来源变得模糊一些或者是用假的邮件标题或者通过不常见的服务器来发送邮件用不常见的路由他们就能给你发送垃圾邮件而且这些信息也有可能包含在邮件标题部分因此可以想到我们可以通过邮件的标题部分来构造更加复杂的特征来获得一系列的邮件路由信息进而判定这是否是一封垃圾邮件

你还可能会想到别的方法比如从邮件的正文出发寻找一些复杂点的特征例如单词"discount" 是否和单词"discounts"是一样的又比如单词"deal(交易)"和"dealer(交易商)"是否也应视为等同甚至像这个例子中有的单词小写有的大写或者我们是否应该用标点符号来构造复杂的特征变量因为垃圾邮件可能会更多的使用感叹号这些都不一定

同样的我们也可能构造更加复杂的算法来检测或者纠正那些故意的拼写错误例如 "m0rtgage" "med1cine" "w4tches" 因为垃圾邮件发送方确实这么做了因为如果你将4放到"w4tches"中那么用我们之前提到的简单的方法垃圾邮件分类器不会把"w4tches" 和"watches" 看成一样的这样我们就很难区分这些故意拼错的垃圾邮件发垃圾邮件的也很机智他们这么做就逃避了一些过滤当我们使用机器学习时总是可以“头脑风暴”一下想出一堆方法来试试就像这样

顺带一提我有一段时间研究过垃圾邮件分类的问题实际上我花了很多时间来研究这个尽管我能够理解垃圾邮件分类的问题我确实懂一些这方面的东西但是我还是很难告诉你 这四种方法中你最该去使用哪一种 事实上坦白地说最常见的情况是一个研究小组可能会随机确定其中的一个方法但是有时候这种方法并不是最有成效的你知道你只是随机选择了其中的一种方法实际上当你需要通过头脑风暴来想出不同方法来尝试去提高精度的时候你可能已经超越了很多人了令人难过的是大部分人他们并不尝试着列出可能的方法他们做的只是某天早上醒来因为某些原因有了一个突发奇想 "让我们来试试用Honey Pot项目收集大量的数据吧" 不管出于什么奇怪的原因早上的灵机一动还是随机选一个然后干上大半年但是我觉得我们有更好的方法

下一节我们将通过误差分析告诉你怎样用一个更加系统性的方法从一堆不同的方法中选取合适的那一个

Error Analysis误差分析

如果你准备研究机器学习的东西或者构造机器学习应用程序最好的实践方法不是建立一个非常复杂的系统拥有多么复杂的变量而是构建一个简单的算法这样你可以很快地实现它每当我研究机器学习的问题时我最多只会花一天的时间来试图很快的把结果搞出来即便效果不好根本没有用复杂的系统但是只是很快的得到的结果即便运行得不完美但是也把它运行一遍最后通过交叉验证来检验数据一旦做完再通过画出学习曲线以及检验误差来找出你的算法是否有高偏差和高方差的问题或者别的问题在这样分析之后再来决定用更多的数据训练或者加入更多的特征变量是否有用

这么做的原因是这在你刚接触机器学习问题时是一个很好的方法你并不能提前知道你是否需要复杂的特征变量或者你是否需要更多的数据还是别的什么提前知道你应该做什么是非常难的因为你缺少证据缺少学习曲线因此你很难知道你应该把时间花在什么地方来提高算法的表现但是当你实践一个非常简单即便不完美的方法时你可以通过画出学习曲线来做出进一步的选择

这种理念是我们必须用证据来领导我们的决策怎样分配自己的时间来优化算法而不是仅仅凭直觉凭直觉得出的东西一般总是错误的除了画出学习曲线之外一件非常有用的事是误差分析当我们在构造比如构造垃圾邮件分类器时我会看一看我的交叉验证数据集然后亲自看一看哪些邮件被算法错误地分类因此通过这些被算法错误分类的垃圾邮件与非垃圾邮件你可以发现某些系统性的规律什么类型的邮件总是被错误分类经常地这样做之后这个过程能启发你构造新的特征变量或者告诉你现在这个系统的短处然后启发你如何去提高它

具体地说这里有一个例子假设你正在构造一个垃圾邮件分类器你拥有500个实例在交叉验证集中假设在这个例子中该算法有非常高的误差率它错误分类了一百个交叉验证实例所以我要做的是人工检查这100个错误然后手工为它们分类基于例如这些是什么类型的邮件哪些变量能帮助这个算法来正确分类它们明确地说通过鉴定这是哪种类型的邮件通过检查这一百封错误分类的邮件我可能会发现最容易被误分类的邮件可能是有关药物的邮件基本上这些邮件都是卖药的或者卖仿品的比如卖假表或者一些骗子邮件又叫做钓鱼邮件等等所以在检查哪些邮件被错误分类的时候我会看一看每封邮件数一数比如在这100封错误归类的邮件中我发现有12封错误归类的邮件是和卖药有关的邮件 4封是推销仿品的推销假表或者别的东西然后我发现有53封邮件是钓鱼邮件诱骗你告诉他们你的密码剩下的31封别的类型的邮件通过算出每个类别中不同的邮件数你可能会发现比如该算法在区分钓鱼邮件的时候总是表现得很差这说明你应该花更多的时间来研究这种类型的邮件然后看一看你是否能通过构造更好的特征变量来正确区分这种类型的邮件同时我要做的是看一看哪些特征变量可能会帮助算法正确地分类邮件

我们假设能帮助我们提高邮件分类表现的方法是检查有意的拼写错误不寻常的邮件路由来源以及垃圾邮件特有的标点符号方式比如很多感叹号与之前一样我会手动地浏览这些邮件假设有5封这种类型的邮件 16封这种类型的 32封这种类型的以及一些别的类型的如果这就是你从交叉验证中得到的结果那么这可能说明有意地拼写错误出现频率较少这可能并不值得你花费时间去编写算法来检测这种类型的邮件但是如果你发现很多的垃圾邮件都有不一般的标点符号规律那么这是一个很强的特征说明你应该花费你的时间去构造基于标点符号的更加复杂的特征变量因此这种类型的误差分析是一种手动检测的过程检测算法可能会犯的错误这经常能够帮助你找到更为有效的手段这也解释了为什么我总是推荐先实践一种快速即便不完美的算法我们真正想要的是找出什么类型的邮件是这种算法最难分类出来的对于不同的算法不同的机器学习算法它们所遇到的问题一般总是相同的通过实践一些快速即便不完美的算法你能够更快地找到错误的所在并且快速找出算法难以处理的例子这样你就能集中精力在这些真正的问题上

最后在构造机器学习算法时另一个有用的小窍门是保证你自己能有一种数值计算的方式来评估你的机器学习算法

先看看这个例子假设我们试图决定是否应该把像"discount""discounts""discounter""discountring" 这样的单词都视为等同一种方法是检查这些单词的开头几个字母比如当你在检查这些单词开头几个字母的时候你发现这几个单词大概可能有着相同的意思在自然语言处理中这种方法是通过一种叫做词干提取的软件实现的如果你想自己来试试你可以在网上搜索一下 "Porter Stemmer(波特词干提取法)" 这是在词干提取方面一个比较不错的软件这个软件会将单词"discount""discounts"以及等等都视为同一个单词但是这种词干提取软件只会检查单词的头几个字母这有用但是也可能会造成一些问题因为举个例子因为这个软件会把单词"universe(宇宙)" 和"university(大学)" 也视为同一个单词因为这两个单词开头的字母是一样的因此当你在决定是否应该使用词干提取软件用来分类这总是很难说清楚特别地误差分析也并不能帮助你决定词干提取是不是一个好的方法与之相对地最好的方法来发现词干提取软件对你的分类器到底有没有用是迅速地着手试一试来看看它表现到底怎么样为了这么做通过数值来评估你的算法是非常有用的具体地说自然而然地你应该通过交叉验证来验证不用词干提取与用词干提取的算法的错误率 因此如果你不在你的算法中使用词干提取然后你得到比如 5%的分类错误率然后你再使用词干提取来运行你的算法你得到比如 3%的分类错误那么这很大的减少了错误发生于是你决定词干提取是一个好的办法就这个特定的问题而言这里有一个数量的评估数字即交差验证错误率 我们以后会发现这个例子中的评估数字还需要一些处理但是我们可以在今后的课程中看到这么做还是会让你能更快地做出决定比如是否使用词干提取

如果每一次你实践新想法的时候你都手动地检测这些例子去看看是表现差还是表现好那么这很难让你做出决定到底是否使用词干提取是否区分大小写但是通过一个量化的数值评估你可以看看这个数字误差是变大还是变小了你可以通过它更快地实践你的新想法它基本上非常直观地告诉你你的想法是提高了算法表现还是让它变得更坏这会大大提高你实践算法时的速度所以我强烈推荐在交叉验证集上来实施误差分析而不是在测试集上但是还是有一些人会在测试集上来做误差分析即使这从数学上讲是不合适的所以我还是推荐你 在交叉验证向量上来做误差分析

总结一下当你在研究一个新的机器学习问题时我总是推荐你实现一个较为简单快速即便不是那么完美的算法我几乎从未见过人们这样做大家经常干的事情是花费大量的时间在构造算法上构造他们以为的简单的方法因此不要担心你的算法太简单或者太不完美而是尽可能快地实现你的算法当你有了初始的实现之后它会变成一个非常有力的工具来帮助你决定下一步的做法因为我们可以先看看算法造成的错误通过误差分析来看看他犯了什么错然后来决定优化的方式另一件事是假设你有了一个快速而不完美的算法实现又有一个数值的评估数据这会帮助你尝试新的想法快速地发现你尝试的这些想法是否能够提高算法的表现从而你会更快地做出决定在算法中放弃什么采纳什么

Handling Skewed Data处理偏斜数据

Error Metrics for Skewed Classes偏斜类的错误度量

有了算法的评估和误差度量值有一件重要的事情要注意就是使用一个合适的误差度量值这有时会对于你的学习算法造成非常微妙的影响这件重要的事情就是 偏斜类（skewed classes）的问题比如癌症分类问题我们拥有内科病人的特征变量我们希望知道他们是否患有癌症我们假设 y=1 表示患者患有癌症假设 y=0 表示他们没有得癌症我们训练逻辑回归模型假设我们用测试集检验了这个分类模型并且发现它只有1%的错误 因此我们99%会做出正确诊断看起来是非常不错的结果但是我们发现在测试集中只有0.5%的患者真正得了癌症因此在这个例子中 1%的错误率就不再显得那么好了

举个具体的例子这里有一行代码它让y总是等于0 因此它总是预测没有人得癌症那么这个算法实际上只有 0.5%的错误率因此这甚至比我们之前得到的1%的错误率更好在这个例子中正样本的数量与负样本的数量相比非常非常少我们把这种情况叫做 偏斜类一个类中的样本数与另一个类的数据相比多很多通过总是预测y=0 或者总是预测y=1 算法可能表现非常好

因此使用分类误差或者分类精确度来作为评估度量可能会产生如下问题假如说你有一个算法它的精确度是99.2% 因此它只有0.8%的误差假设你对你的算法做出了一点改动现在你得到了 99.5%的精确度只有0.5%的误差这到底是不是算法的一个提升呢用某个实数来作为评估度量值的一个好处就是它可以帮助我们迅速决定我们是否需要对算法做出一些改进将精确度从99.2%提高到99.5% 但是我们的改进到底是有用的还是说我们只是把代码替换成了例如总是预测y=0 这样的东西因此如果你有一个偏斜类用分类精确度并不能很好地衡量算法因为你可能会获得一个很高的精确度非常低的错误率但是我们并不知道我们是否真的提升了分类模型的质量因为总是预测y=0 并不是一个好的分类模型但是总是预测y=0 会将你的误差降低至比如降低至0.5%

当我们遇到这样一个偏斜类时我们希望有一个不同的误差度量值其中一种评估度量值叫做查准率（precision）和召回率（recall）让我来解释一下假设我们正在用测试集来评估一个二元分类模型我们的学习算法要做的是做出值的预测如果有一个样本它实际所属的类是1 预测的类也是1 那么我们把这个样本叫做真阳性（true positive）学习算法预测某个值是阴性等于0 实际的类也确实属于0 那么我们把这个叫做真阴性（true negative） 学习算法预测某个值等于1 但是实际上它等于0 这个叫做假阳性（false positive） 算法预测值为0 但是实际值是1 叫做假阴性（false negative） 这样我们有了一个2x2的表格基于实际类与预测类这样我们有了一个另一种方式来评估算法的表现

我们要计算两个数字第一个叫做查准率 这个意思是 对于所有我们预测他们患有癌症的病人有多大比率的病人是真正患有癌症的 一个分类模型的查准率 = 真阳性/预测为阳性 = 真阳性/(真阳性 +假阳性) 查准率越高就越好另一个数字我们要计算的叫做召回率 召回率是 如果所有这些在数据集中的病人确实得了癌症有多大比率我们正确预测他们得了癌症召回率 = 真阳性/实际阳性 = 真阳性/(真阳性 + 假阴性) 同样地召回率越高越好通过计算查准率和召回率我们能更好的知道分类模型到底好不好

Trading Off Precision and Recall

癌症分类的例子假如我们希望在我们非常确信地情况下才预测一个病人得了癌症这样做的一种方法是修改算法 我们不再将临界值设为0.5 也许我们只在 h(x)的值大于或等于0.7 的情况下才预测y=1 因此你的回归模型会有较高的查准率 和较低的召回率

因为当我们做预测的时候我们只给很小一部分的病人预测y=1 现在我们把这个情况夸大一下我们临界值设为0.9 我们只在至少90%肯定这个病人患有癌症的情况下预测y=1 那么这些病人当中有非常大的比率真正患有癌症因此这是一个高查准率的模型但是召回率会变低因为我们希望能够正确检测患有癌症的病人

现在考虑一个不同的例子假设我们希望避免遗漏掉患有癌症的人即我们希望避免假阴性具体地说如果一个病人实际患有癌症但是我们并没有告诉他患有癌症那这可能造成严重后果在这个例子中我们将临界值设得较低比如0.3 在这种情况下我们会有一个 较高召回率和较低的查准率的模型

因此总的来说对于大多数的回归模型你得权衡查准率和召回率

当你改变临界值的值时我在这儿画了一个临界值你可以画出曲线来权衡查准率和召回率这里的一个值反应出一个较高的临界值这个临界值可能等于0.99 我们假设只在有大于99%的确信度的情况下才预测y=1 至少有99%的可能性因此这个点反应高查准率低召回率然而这里的一个点反映一个较低的临界值比如说0.01 毫无疑问在这里预测y=1 如果你这么做你最后会得到很低的查准率但是较高的召回率当你改变临界值如果你愿意你可以画出回归模型的所有曲线来看看你能得到的查准率和召回率的范围顺带一提查准率-召回率曲线可以是各种不同的形状有时它看起来是这样有时是那样查准率-召回率曲线的形状有很多可能性这取决于回归模型的具体算法因此这又产生了另一个有趣的问题那就是有没有办法自动选取临界值或者更广泛地说如果我们有不同的算法或者不同的想法我们如何比较不同的查准率和召回率呢？

具体来说假设我们有三个不同的学习算法或者这三个不同的学习曲线是同样的算法但是临界值不同我们怎样决定哪一个算法是最好的我们之前讲到的其中一件事就是评估度量值的重要性这个概念是通过一个具体的数字来反映你的回归模型到底如何但是查准率和召回率的问题我们却不能这样做因为在这里我们有两个可以判断的数字因此我们经常会不得不面对这样的情况如果我们正在试图比较算法1 和算法2 我们最后问自己到底是0.5的查准率与 0.4的召回率好还是说 0.7的查准率与 0.1的召回率好或者每一次你设计一个新算法你都要坐下来思考到底0.5 0.4好还是说 0.7 0.1好我不知道如果你最后这样坐下来思考这回降低你的决策速度思考到底哪些改变是有用的应该被融入到你的算法与此相反的是如果我们有一个评估度量值一个数字能够告诉我们到底是算法1好还是算法2好这能够帮助我们更快地决定哪一个算法更好同时也能够更快地帮助我们评估不同的改动哪些应该被融入进算法里面那么我们怎样才能得到这个评估度量值呢？

你可能会去尝试的一件事情是计算一下查准率和召回率的平均值用 P 和 R 来表示查准率和召回率你可以做的是计算它们的平均值看一看哪个模型有最高的均值但是这可能并不是一个很好的解决办法因为像我们之前的例子一样如果我们的回归模型总是预测 y=1 这么做你可能得到非常高的召回率得到非常低的查准率相反地如果你的模型总是预测y=0 就是说如果很少预测y=1 对应的设置了一个高临界值最后你会得到非常高的查准率和非常低的召回率这两个极端情况一个有非常高的临界值一个有非常低的临界值它们中的任何一个都不是一个好的模型

相反地有一种结合查准率和召回率的不同方式叫做F值公式是这样在这个例子中 F值是这样的我们可以通过 F值来判断算法1 有最高的F值算法2第二算法3是最低的因此通过F值我们会在这几个算法中选择算法1 F值也叫做F1值一般写作F1值但是人们一般只说F值它的定义会考虑一部分查准率和召回率的平均值但是它会给查准率和召回率中较低的值更高的权重因此你可以看到F值的分子是查准率和召回率的乘积因此如果查准率等于0 或者召回率等于0 F值也会等于0 因此它结合了查准率和召回率对于一个较大的F值查准率和召回率都必须较大我必须说有较多的公式可以结合查准率和召回率 F值公式只是其中一个但是出于历史原因和习惯问题人们在机器学习中使用F值这个术语F值没有什么特别的意义所以不要担心它到底为什么叫做F值或者F1值但是它给了你你需要的有效方法因为无论是查准率等于0 还是召回率等于0 它都会得到一个很低的F值因此如果要得到一个很高的F值你的算法的查准率和召回率都要接近于1 具体地说如果P=0或者 R=0 你的F值也会等于0 对于一个最完美的F值如果查准率等于1 同时召回率也等于1 那你得到的F值等于1乘以1 除以2再乘以2 那么F值就等于1 如果你能得到最完美的查准率和召回率在0和1中间的值这经常是回归模型最经常出现的分数

在这次的视频中我们讲到了如何权衡查准率和召回率以及我们如何变动临界值来决定我们希望预测y=1 还是y=0 比如我们需要一个 70%还是90%置信度的临界值或者别的来预测y=1 通过变动临界值你可以控制权衡查准率和召回率之后我们讲到了F值它权衡查准率和召回率给了你一个评估度量值当然如果你的目标是自动选择临界值来决定你希望预测y=1 还是y=0 那么一个比较理想的办法是评估这些不同的临界值在交叉检验集上得到最高的F值这是自动选择临界值的较好办法

Using Large Data Sets使用大型数据集

Data For Machine Learning机器学习数据

事实证明在一定条件下得到大量的数据并在某种类型的学习算法中进行训练可以是一种有效的方法来获得一个具有良好性能的学习算法而这种情况往往出现在这些条件对于你的问题都成立并且你能够得到大量数据的情况下这可以是一个很好的方式来获得非常高性能的学习算法

我先讲一个故事很多很多年前我认识的两位研究人员 Michele Banko 和 Eric Brill 进行了一项有趣的研究他们感兴趣的是研究使用不同的学习算法的效果 与将这些效果使用到不同训练数据集上两者的比较他们当时考虑这样一个问题如何在易混淆的词之间进行分类比如在这样的句子中：早餐我吃了__个鸡蛋 (to,two,too) 在这个例子中早餐我吃了2个鸡蛋这是一个易混淆的单词的例子而这是另外一组情况于是他们把诸如这样的机器学习问题当做一类监督学习问题并尝试将其分类什么样的词在一个英文句子特定的位置才是合适的

他们选了四种分类算法 这些具体算法并不重要他们所做的就是 改变了训练数据集的大小 并尝试将这些学习算法用于不同大小的训练数据集中这就是他们得到的结果这些趋势非常明显首先大部分算法都具有相似的性能 其次 随着训练数据集的增大这些算法的性能也都对应地增强了

事实上如果你选择选择了一个"劣等的"算法如果你给这个劣等算法更多的数据那么它有可能会比"优等算法"更好像这样的结果引起了一种在机器学习中的普遍共识： "取得成功的人不是拥有最好算法的人而是拥有最多数据的人" 那么这种说法在什么时候是真什么时候是假呢？

如果你有大量的数据而且你训练了一种带有很多参数的学习算法那么这将会是一个很好的方式来提供一个高性能的学习算法我觉得关键的测试我常常问自己首先一个人类专家看到了特征值 x 能很有信心的预测出 y值吗？因为这可以证明 y 可以根据特征值 x 被准确地预测出来其次我们实际上能得到一组庞大的训练集并且在这个训练集中训练一个有很多参数的学习算法吗？如果你不能做到这两者那么更多时候你会得到一个性能很好的学习算法

参考资料

https://www.coursera.org/learn/machine-learning/

斯坦福大学《Machine Learning》第6周学习笔记