视频分类(Video Classification)任务概述

视频分类任务目的

  视频分类是给定一个视频,为其划分到指定的类别中。视频分类与图像分类相似,不同点在于图像分类是给定单张图片进行划分类别,视频分类是给定连续的图片数据,进行类别的划分。

视频分类任务数据集

  • UCF101:UCF101是一个现实动作视频的动作识别数据集,收集自YouTube,提供了来自101个动作类别的13320个视频。数据官方:link
  • Kinetics-400:Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含 400 个动作类别。
  • Kinetics-600: Kinetics-600 是 Kinetics-400 数据集的一个扩展。其中包含 600 个动作类别。

  目前学术界主要以Kinetics-400、Kinetics-600为评估标准,并制作了大量预训练模型

视频分类模型

  现阶段的模型主要以3d卷积和transformer为主,比较经典的模型有C3D、SlowFast论文地址,基于transformer的模型结构有MViT、Swin Transformer论文地址
  我是基于pytorch进行工作和研究的,我目前发现pytorch提供如下预训练模型:
pytorch提供的预训练模型
  预训练模型准确度如下:
预训练模型准确度

视频分类应用场景

  • 直播平台鉴别违规行为
  • 工厂监督生产
  • 安防监控

如何训练模型和部署

  由于视频分类涉及的内容较多,我想分多篇博客进行详细的讲解,在接下来的博客中我会详细讲述数据的预处理、模型的选型、训练与部署,如果对我的内容感兴趣,欢迎点赞收藏。

结尾

欢迎大家在评论区讨论、学习!
B站:Silver__Wolf_
Q:130856474

猜你喜欢

转载自blog.csdn.net/Silver__Wolf/article/details/131864792