【开放集检测OSR】open-set recognition(OSR)开集识别概念辨析

开放集学习 Openset Learning
主动学习 Active Learning
异常检测(知乎) Out-of-Distribution
异常检测-csdn
open-set recognition(OSR)开集识别
anomaly detection和outlier detection

代码
OpenOOD: Benchmarking Generalized OOD Detection-github

OOD检测

广义OOD detection:囊括了outlier detection (OD) 离群检测,anomaly detection (AD) 异常检测,novelty detection (ND)新颖检测,open set recognition (OSR)开放集识别 和 OOD detection(OOD)分布外检测;

OSR开放集识别

设计一个模型,这个模型不仅可以对已知的类别进行分类,还能够识别出属于未知类别的样本。这通常需要模型具有一定的异常检测能力。

OSR开放集识别在训练和测试阶段的数据集使用

开放集检测通常会使用闭集图片进行训练,使用开放集图像进行测试。

闭集图片:属于已知类别的样本,它们在训练过程中用于建立模型对这些已知类别的分类能力。闭集训练数据通常包含已知类别的样本和相应的标签,用于指导模型学习正确的类别分类。

开放集图像: 属于已知类别以外、未知或不同类别的样本。这些样本在训练阶段通常不会直接用于模型的训练,因为模型无法从这些样本中获得类别标签信息。开放集图像在测试阶段用于评估模型在处理未知样本时的性能。

开放集检测的目标是识别出不属于任何已知类别的开放集样本,因此训练过程主要关注已知类别的分类能力,而不是对开放集图像进行具体分类的能力。

通常会使用闭集图片训练模型,然后在测试阶段使用开放集图像来评估模型的开放集检测性能。

数据分布

到底什么是深度学习中经常提到的数据分布?

知乎
在这里插入图片描述
如果训练数据是图片的话怎么理解分布的概念?

一幅图像可以认为是一个高维空间中的一个点,多幅图像就是多个点,在高维空间标出来后,会发现这多个点是按照一个分布(不妨假设是一个多维高斯分布)所存在的。一般的正常图像是这个高斯分布中随机采样出来的一个点,而一些噪声图像等非正常图像,它所对应的位置就很可能远离这个高斯分布,或者说计算出来的概率十分低。

在这里插入图片描述

似然函数

概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。

例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次”,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。

区别似然和概率的直接方法为,"谁谁谁的概率"中谁谁谁只能是事件,也就是,事件(发生)的概率是多少;而"谁谁谁的似然"中的谁谁谁只能是参数,比如说,参数等于某个值时的似然是多少。

OSR开放集识别的特点

【我的理解】
OSR识别是OOD的子集问题,OSR主要侧重于解决语义偏移的问题,而且可以识别出未来会出现的一些新类别,OOD会有语义偏移或者分布偏移等等
OSR还要求模型在已知类别中有好的分类

OSR 和 OOD detection 的差异:

  1. 不同的基准设置: OSR基准通常根据标签类别将一个多类分类数据集拆分为ID(分布内,In- Distribution,ID)和OOD,而OOD检测将一个数据集作为ID,并找到其他几个数据集作为OOD,保证ID / OOD数据集之间的类别不重叠。然而,尽管这两个子任务的基准传统不同,但它们实际上都在处理相同的语义转换检测问题(y变化的检测,作者这里还是认为ood的重点是检测y的变化)。

  2. OSR中没有额外的数据: 由于理论上开放风险约束保证的要求,OSR不鼓励在训练期间通过设计使用额外的数据。这种限制排除了更专注于有效性能改进(例如,异常值暴露)但可能违反OSR约束的方法。

  3. OOD检测的广泛性: 与OSR相比,OOD检测包含更广泛的学习任务(例如,多标签分类)、更广泛的解决方案空间。

OSR与我们的通用OOD检测框架非常吻合,其中"已知的已知类别"和"未知的未知类别"分别对应于ID和OOD。形式上,OSR处理的是OOD样本发生语义偏移(Y变)的情况,即 P ( Y ) ≠ P ′ ( Y ) P(Y) \neq P'(Y) P(Y)=P(Y)。OSR的目标与多类ND的目标在很大程度上是一致的,唯一的区别是OSR额外需要解决一个问题,就是对来自 P ( Y ) P(Y) P(Y) 的ID样本进行准确分类。

例子: MNIST上的一个例子和多类ND类似,将前6类视为ID,其余4类视为OOD。此外,OSR还要求在6个ID类上有一个好的分类器。

猜你喜欢

转载自blog.csdn.net/weixin_45662399/article/details/134847156