结构化机器学习项目——机器学习策略（一）

一、为什么是机器学习（ML）策略

我们在优化一个模型时可以从很多角度来着手，如下图，但是如果不分析清楚就一味地从某个方面莽撞前行会浪费大量的时间。

二、正交化

1.在深度学习中，需要调整的超参数非常多，而对于资深的深度学习专家而言，对于需要调整什么以达到什么效果是很明确的。

2.正交化的定义：对于某个由多个维度决定的变量，如果各维度之间可以单独调整而不影响其余维度，那么这些维度之间的关系称为正交化，下面以电视机调节和汽车操纵为例。

3.机器学习模型调整的“假设链”，在每一步上要有评估的指标和调整的“旋钮”

使cost函数能够很好的适应训练集（training set）：bigger network，Adam
适应开发集（dev set）：regularization、bigger training set
适应测试集（test set）：bigger dev set
适应实际应用：bigger dev set，cost function

4.在训练机器学习模型时要有调节电视机的直觉，看到宽度、高度、色彩不好时要能够判断出需要调整那个按钮。

三、单实数评估指标

1.常用的单实数评估指标，这两个指标往往需要折中考虑。

查准率（Precision）：在预测结果中，有多少样本被检测正确了
查全率（Recall）：对于标签为真的样本，有多少被检测出来了

2.查准率与查全率需要折中考虑不便于评估，因此有学者提出了F1分数的评估，该指标P和R的某种均值展示，计算公式如下：

3.对于有多个测试集的项目，计算模型在各个样本集中的平均误差是选择最佳模型的较好的评估指标。

四、满足和优化指标

1.评估指标除了可以包含精确度指标外，还可以包含运行时间等指标。如果我们要求运行时间必须满足某一个值，那么我们在评估分类器时，可以将运行时间当作满足指标（satisficing metric），而精确度当作优化指标（optimizing metric）。从这个思路出发，如果在一个项目中分类器选择有N个指标（metrics），通常确定1个优化指标，其余N-1个作为满足指标。

2.trigger words

五、训练集、开发集、测试集的划分

1.开发集（dev set）：development set 也称 hold out corss validation（保留交叉验证集）。开发集主要用来评估不同的思路，然后选择一个评估指标比较好的分类器然后不断迭代直到可以获得一个令人满意的cost值，然后在去测试集中测试。

2.开发集与测试集划分的原则，假设我们有下图中的数据，我们在划分训练集和测试集的时候很容犯的错误是直接或随即的将一部分数据华为开发集一部分作为测试集，之所以说这种划分方法不对，是因为没有考虑数据分布，因为这个不同地区的数据很大程度上是满足不同的分布的。正确的做法是将这些数据先随即打乱，这样开发集和测试集中都有下面八个地区的数据，并且满足同分布。