01 数据集“超大杯”

那么，什么是数据集呢？

近年来，人工智能快速发展，相关的框架、算法等层出不穷，要检验一个算法的好坏，就需要用有关的数据集进行实验。

老话说，“是骡子是马，拉出来遛遛！”——就是这个意思。

从下图中可以看出，VCSL覆盖大量真实视频领域与视频时长，包括了超过16万对侵权视频对，28万对侵权片段。

VCSL的规模超出现有最优数据集2个数量级，可以更好地帮助技术人员进行AI算法模型训练和产品开发。

VCSL与其它学术界数据集比较

简单来说，VCSL就是一款“超大杯”，量够大，功能更强。VCSL数据集的发布将大大节省人工审核成本，提高视频侵权取证的效率和准确性。

02 侵权检测easy+

目前开源的拥有片段级别标注的数据集仅有2014年ECCV上开源的VCDB数据集，但这个数据集规模比较小，仅有6000对侵权视频对，并且数据的分布也集中在低清晰度和比较短的视频。

技术同学觉得，这个数据规模用作AI模型的训练并不够理想。

此外，已经开源的数据集大部分都只有视频级别的标注，而并未标注两个视频之间实际侵权的时间片段。

也就是说，过去的数据集只能判断出两个视频是否构成侵权，但并不知道视频中到底哪个片段构成了侵权。如果视频时常2个小时，就需要通过人工拖拉进度条来把侵权片段一个个揪出来。

显然，这个办法实在是有点“笨”。那，怎么解决呢？

早在去年，蚂蚁的技术同学在多媒体顶会ACM MM上创新地提出了一种侵权定位算法，即视频片段相似度和定位网络（Segment Similarity and Alignment Network，SSAN），并在此基础上形成了完善的视频侵权定位基准。

这一算法可以很轻易地对视频侵权片段进行定位（包括但不限于切片、混剪、倒放、鬼畜、画中画等方式）。

技术同学说：“整个SSAN可以端到端进行训练，得到现阶段最好的片段级别侵权定位的效果。”

视频检测算法的处理流程分为三个部分：视频预处理、视频特征提取和视频侵权定位。

当两个视频在某个时间片段出现高度相似（侵权）时，会定位出一些例如“特征线”等情况的特殊图案。

全程AI技术加持，侵权检测从此easy加倍。

相似图生成与原视频对示意图

为降低版权的保护门槛，蚂蚁链曾推出数字版权保护平台——「鹊凿」，提供图片确权存证、侵权取证和证据核验等一站式线上自助服务。

通过VCSL数据集、其他公开测评集以及自有数据集积累，鹊凿也锻炼出了更高效的侵权检测能力。同时也沉淀了大量的视频算法技术，在版权保护领域保持领先。

无论是算法代码也好，数据集也好。今天，我们希望通过开放开源，鼓励更多的人参与到版权保护的算法研究中，进一步推动行业的发展。

“之前别人没有做过的事情，我们把它做出来很自豪、很高兴。”在技术开发和迭代的路上，技术同学也形成了职业病，“当看到一些热门视频时总会想着把它放到系统里跑一跑，看看效果怎么样。”

点击链接访问访问VCSL数据集代码：GitHub - alipay/VCSL: VCSL Benchmark