视频属性
ID	Description	描述
BC	Background Clutter. The back- and foreground regions around the object boundaries have similar colors ( $\chi ^2$ over histograms).	复杂的背景。在目标边界附近的背景前景区域有相似的颜色。
DEF	Deformation. Object undergoes complex, non-rigid deformations.	形变。目标存在复杂的非刚性的形变。
MB	Motion Blur. Object has fuzzy boundaries due to fast motion.	运动模糊。由于快速的运动，目标边界模糊。
FM	Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than $\tau_{fm}$ = 20 pixels.	快速运动。目标平均的帧间运动距离大于20像素，距离定义为质心的欧几里得距离。
LR	Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than tlr = 0.1.	低分辨率（小目标）。平均目标边框区域与图像区域的比值小于tlr = 0.1。
OCC	Occlusion. Object becomes partially or fully occluded.	遮挡。目标部分或全部被遮挡。
OV	Out-of-view. Object is partially clipped by the image boundaries.	视野之外。目标被图像边框裁剪了部分，即只有部分目标处于视野中。
SV	Scale-Variation. The area ratio among any pair of boundingboxes enclosing the target object is smaller than $\tau_{sv}$ = 0.5.	尺度变化。存在一对包围目标对象的边界框（两帧），他们的面积比小于0.5。
AC	Appearance Change. Noticeable appearance variation, due to illumination changes and relative camera-object rotation.	外观变化。由光照变化和相对的相机-目标旋转导致的显著外观变化。
EA	Edge Ambiguity. Unreliable edge detection. The average groundtruth edge probability (using [11]) is smaller than $\tau _{e}$ = 0.5.	边沿模糊。不可靠的边沿检测。平均真值边界的概率小于0.5.
CS	Camera-Shake. Footage displays non-negligible vibrations.	相机抖动。画面显示不可忽略的振动。
HO	Heterogeneus Object. Object regions have distinct colors.	颜色不均匀的目标。目标区域有不同的颜色。
IO	Interacting Objects. The target object is an ensemble of multiple, spatially-connected objects (e.g. mother with stroller).	交互的对象。目标对象是多个空间连接的对象(例如母亲和婴儿车)的集合。
DB	Dynamic Background. Background regions move or deform.	动态背景。背景区域移动或者形变。
SC	Shape Complexity. The object has complex boundaries such as thin parts and holes.	复杂形状。目标有复杂的边界，比如很细的部分或者洞。

这些属性并不具备排他性，因此一个视频序列可以被标注多个属性。他们在数据集中的分布展示在下图左中，图右显示他们两两之间的依赖关系。注释使我们能够将性能分析解耦到具有主要特征的不同组中(例如遮挡)，从而更好地理解每种方法的优缺点。

4.实验验证

为了判断分割的质量，如何选择合适的度量标准在很大程度上取决于最终应用程序的最终目标。

直观上讲，当视频分割主要用于更大处理管道中的分类器时，例如解析大型数据集时，强调错误标记的像素的最少数量是非常有意义的。

另一方面，在视频编辑应用中，轮廓的准确性和结果在时间域上的稳定性是最重要的，因为这些属性通常需要最艰苦和耗时的手工输入。

为了全面地涵盖上述方面，我们使用三个互补的误差指标来评估视频分割结果。

我们在4.1节中描述了度量标准，并在4.2节中对它们的互补属性进行了实证验证。

4.1度量标准选择

在有监督的评估框架中，给定一个特定帧上的groundtruth-mask G和一个输出的分割结果M，任何评估措施最终都必须回答一个问题，即M如何适合G。

在[37]中，对于图像，可以使用两个互补的观点，基于区域和基于轮廓的度量。

由于视频将静态图像的维数扩展到时间，因此还必须考虑结果的时间稳定性。

我们的评估基于以下测量。

区域相似度（Region Similarity $\mathcal{J}$ ）

为了测量基于区域的分割相似度，即错别字像素的数量，我们使用Jaccard索引 $\mathcal{J}$ 。

$\mathcal{J}$ 定义为估计分割和真值掩膜之间的IoU（Intersection over Union）。

自从在PASCAL VOC2008目标跟踪挑战中首次出现以后，Jaccard索引已经被广泛应用。

Jaccard索引提供了关于错误分类像素的、直观的和尺度不变的信息。

给定输出分割 $M$ 和真值掩膜 $G$ ，Jaccard索引定义为： $\mathcal{J} = \frac{M\cap G}{M\cup G}$ 。

边沿精度（Contour Accuracy $\mathcal{F}$ ）

从基于轮廓的角度来看，可以将M解释为一组限定掩模空间范围的闭合轮廓c(M)。

因此，通过一个二分图匹配以提高对小误差的鲁棒性，我们可以比较 $c(M)$ 和 $c(G)$ 的边缘点计算基于轮廓的精度 $P_c$ 和召回 $R_c$ 。

我们认为F-score $\mathcal{F}$ 可以取得精度和召回之间较好的权衡，定义为： $\mathcal{F} = \frac{2P_{c}R_{e}}{P_{c}+R_e}$

为了提高效率，在我们的实验中，我们使用形态学算子近似替代了二分匹配。

时间稳定性（Temporal stability $\mathcal{T}$ ）

直观地， $\mathcal{J}$ 测度了两个掩膜间像素的匹配度， $\mathcal{F}$ 测量了边缘的精度。

但是，结果的时域稳定性是视频对象分割中的一个相关重要的方面，由于对象形状的演化是识别和抖动的一个重要线索，不稳定的边界在视频编辑应用中是不可接受的。

因此，我们还引入了一种时间稳定性测量方法来惩罚这种不期望的效果。

关键的挑战是区分物体的可接受的运动和不需要的不稳定性和抖动。

为此，我们估计了在一帧掩码转换到下一帧所需的变形。直观地说，如果转换是平滑和精确的，结果可以认为是稳定的。

在形式上，我们将帧t的掩膜 $M_t$ 转换为代表其轮廓的多边形 $P(M_t)$ 。然后，我们使用形状上下文描(SCD)[3]述符描述每个点 $p^i_t\in{P(M_t)}$ 。接下来，我们将匹配设置为动态时间扭曲(DTW)[39]问题，是我们寻找 $p_t^i$ 和 $p_{t+1}^j$ 之间的匹配，它最小化了匹配点之间的SCD距离，同时保持了点在形状中出现的顺序。