主动学习、半监督学习、它们之间的区别?

1、主动学习(Active Learning)

含义:

有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。这个筛选过程也就是主动学习主要研究的地方了,怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好。

主动学习的过程大致是这样的,有一个已经标好类标的数据集K(初始时可能为空),和还没有标记的数据集U,通过K集合的信息,找出一个U的子集C,提出标注请求,待专家将数据集C标注完成后加入到K集合中,进行下一次迭代。

特点:

  • 交互性强:涉及与人类专家的交互来获得有价值的标签。
  • 高效利用:可以用较少的标注资源获得较好的模型性能。
  • 特定方向:主动选择最具挑战性或最有信息量的样本进行标注。

2、半监督学习(Semi-Supervised Learning)

半监督学习是一种介于监督学习和无监督学习之间的方法。它使用大量的无标签样本和少量的有标签样本共同训练模型。半监督学习的方法通常通过利用数据的分布、集群、流形等结构信息来推断无标签数据可能的标签,从而辅助模型的训练

特点

  • 自动利用:无需人工选择,自动利用无标签样本的潜在信息。
  • 结构挖掘:挖掘数据的内在结构和模式来辅助有标签样本的学习。
  • 不依赖交互:与主动学习不同,不需要与人类专家交互来获取更多的标签。

3、区别与联系

按wiki上所描述的看,主动学习也属于半监督学习的范畴了,但实际上是不一样的,半监督学习和主动学习,都属于利用未标记数据的学习技术,但基本思想还是有区别的。

主动学习的“主动”,指的是主动提出标注请求,也就是说,还是需要一个外在的能够对其请求进行标注的实体(通常就是相关领域人员),即主动学习是交互进行的

总结对比

  • 主动学习强调通过人机交互主动选择特定样本进行标注,以提高学习效率。
  • 半监督学习则自动利用无标签样本中的潜在结构,无需额外的人机交互。
  • 主动学习通常更关注样本选择策略,而半监督学习更注重利用无标签样本的整体结构信息。
  • 主动学习的效率可能更高,因为它可以更精确地定位到最有助于模型训练的样本,但需要人工参与;半监督学习可以自动进行,但可能不如主动学习精确。

主动学习与半监督学习Active-learning and Semi-supervised learning_从未被模仿一直被超越的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/weixin_43135178/article/details/132081132
今日推荐