Machine Learning Yearning15~19

1.如何进行错误分析呢?我们将错分类别做一个表。
这里写图片描述
横向是各种各样的error categories。观察多了,对比多了,就会想到各种的错误类别。然后通过这个表,来决定在哪方面投入精力。如上表,相对于狗这类,将方向放到Great cat或者Blurry更好。
2.如果发现被错分类别本身标签是错误的,那么我们需要考虑是否纠正这些错误的标签。这取决于这些标错的数据是否影响我们的判断。如果错分类里边只有很少的一部分是被错标记的,那么我们没有必要花费大的精力去修复这些标签的。
但是要记得,对dev set做的处理要对test set做同样的处理,保证俩者的分布一致性。
如果要提高标签的质量,那么也要检查被所谓正确分类标签的质量。如果只修正错分类别的标签,那么可能对评估引入偏见。这些偏见最多在引用场景被接受,但是在学术研究上是不行的。
3.当然不是对所有的dev set数据进行错误分析。如果dev set太多,则需要花费很多时间。我们将dev set分为俩部分,一部分进行观察(被称为Eyeball dev set),一部分调节参数(被称为Blackbox dev set)。
那么如果我们的Eyeball dev set过拟合怎么办?要门重新选择Eyeball dev set,要么增加Eyeball dev set(减少Blackbox dev set),或者获取新的标记数据。
4.现在讨论Eyeball dev set和Blackbox dev set的数量,多少合适?Eyeball dev set应该能够包含足够数量的我们算法错误分类的数据(比如,错分100个)。我们的分类器错误率越低,为了得到一定量的错分的数据,我们需要更多的Eyeball dev set。Eyeball dev set针对人为分类较好的数据。如果我们自己都很难分类,Eyeball dev set就失去作用了。
Blackbox dev set的目的是调整参数和选择模型。一般是1000~10000。
如果数据量少,把所有数据分为Eyeball dev set。我们可以使用这个Eyeball dev set进行观察,调整参数,选择模型。这样做唯一的缺陷是,Eyeball dev set过拟合的概率增加。
5.如果我们不是一个领域的专家,我们首先需要设计一个基本的系统,通过错误分析帮助我们来决定最优吸引力的方向,然后朝着这个方向不断迭代。
6.如果Eyeball dev set的效果比Blackbox dev set好很多,那么Eyeball dev set过拟合了。

猜你喜欢

转载自blog.csdn.net/sunyao_123/article/details/80247387