Machine Learning Yearning15~19

1.如何进行错误分析呢？我们将错分类别做一个表。
这里写图片描述
横向是各种各样的error categories。观察多了，对比多了，就会想到各种的错误类别。然后通过这个表，来决定在哪方面投入精力。如上表，相对于狗这类，将方向放到Great cat或者Blurry更好。
2.如果发现被错分类别本身标签是错误的，那么我们需要考虑是否纠正这些错误的标签。这取决于这些标错的数据是否影响我们的判断。如果错分类里边只有很少的一部分是被错标记的，那么我们没有必要花费大的精力去修复这些标签的。
但是要记得，对dev set做的处理要对test set做同样的处理，保证俩者的分布一致性。
如果要提高标签的质量，那么也要检查被所谓正确分类标签的质量。如果只修正错分类别的标签，那么可能对评估引入偏见。这些偏见最多在引用场景被接受，但是在学术研究上是不行的。
3.当然不是对所有的dev set数据进行错误分析。如果dev set太多，则需要花费很多时间。我们将dev set分为俩部分，一部分进行观察（被称为Eyeball dev set），一部分调节参数（被称为Blackbox dev set）。
那么如果我们的Eyeball dev set过拟合怎么办？要门重新选择Eyeball dev set，要么增加Eyeball dev set（减少Blackbox dev set），或者获取新的标记数据。
4.现在讨论Eyeball dev set和Blackbox dev set的数量，多少合适？Eyeball dev set应该能够包含足够数量的我们算法错误分类的数据（比如，错分100个）。我们的分类器错误率越低，为了得到一定量的错分的数据，我们需要更多的Eyeball dev set。Eyeball dev set针对人为分类较好的数据。如果我们自己都很难分类，Eyeball dev set就失去作用了。
Blackbox dev set的目的是调整参数和选择模型。一般是1000~10000。
如果数据量少，把所有数据分为Eyeball dev set。我们可以使用这个Eyeball dev set进行观察，调整参数，选择模型。这样做唯一的缺陷是，Eyeball dev set过拟合的概率增加。
5.如果我们不是一个领域的专家，我们首先需要设计一个基本的系统，通过错误分析帮助我们来决定最优吸引力的方向，然后朝着这个方向不断迭代。
6.如果Eyeball dev set的效果比Blackbox dev set好很多，那么Eyeball dev set过拟合了。

Machine Learning Yearning15~19

猜你喜欢