自监督、弱监督、半监督 kick-off

最近对这几个 topic 比较感兴趣,也断断续续看了不少 paper,先简单总计一下现阶段的理解,后续如果理解更加深入后再更新:

自监督,弱监督和半监督没有明确的界限。都可以划归到深度迁移学习概念下。都旨在利用无标签数据构造一些 pretext  task 获取伪标签,辅助新任务的小样本学习。目前看其实主要是利用大量同源的数据学习到更多底层的特征,获得更好的预训练模型。类似字典学习,里面的 atom 全了,弹药更多了,当然对与新任务的收敛和性能也可能更加友好。所以后面我就不做区分,统一成为自监督学习

这里的一个不确定性是,如果准备的弹药(无标签数据生成的特征)对与新任务用不上,那么可能这种自监督学习是无效的。所以自监督学习的关键是怎么无标签的数据选择和 pretext task 的构造很关键,一般来说,通用的pretext task 有以下流派,如表 1 所示:

表 1 自监督学习 pretext task 流派
流派 代表性方法
encoder-decoder 流派
rotation prediction 流派
jigsaw puzzles 流派
图像着色流派
图像局部重构流派
对比学习流派(contrastive learning)  [MOCO 系列,simCLR 系列]
student-teacher (ST)流派

上面的代表性方法太多了,除了对比学习流派和 ST 流派,其他都是 augmentation的范畴,也称为 

『Consistency-based Self-supervised learning』  或者  『consistency regularization』,说白了就是同一张图像通过变换后,标签是一致的。

pretext task 其实还是比较关键的,通用的方式当然不一定最优,所以要以终为始去做选择后者构造。如果能构造与目标任务接近的 task 是最理想的。所以很多人也乐于使用 ST 流派来给未标注数据打上伪标签,但是这种方式也有风险是可能在错误的路上越走越远。

先这样吧,其实想说的还不少,只是感觉目前理解的层面还属于看山是山的第一层,多说多错,后面再更新。

欢迎批评讨论。

猜你喜欢

转载自blog.csdn.net/yangyehuisw/article/details/117789559