OpenMMLab 计算机视觉 # day1: 计算机视觉基础与OpenMMLab开源算法体系

第一课 计算机视觉与 OpenMMLab 开源算法体系 张子豪

计算机视觉基础

  • 计算机视觉:让计算机理解图像、视频。

  • 计算机视觉的三大基础任务:图像分类(图像识别)、目标检测、图像分割任务。

  • 根据目标数量,计算机视觉任务也分为:单目标、多目标任务;



  • 图像分割又分为语义分割、实例分割: 语义分割不需要处理重合的情况,但实例分割需要。

  • 大规模视觉识别挑战赛 ILSVRC SOTA 模型:AlexNet(2012) -> ZFNet(2013) -> GoogLeNet(2014) -> ResNet(2016) -> SENet(2017) -> …

  • 计算机视觉具体应用场景举例:图像识别(识别照片中的物体是什么)、人脸检测与定位(特殊的识别和检测对象,用于支付、身份认证、换脸、虚拟主播)、姿态检测、自动驾驶、图像生成(GAN)与图像风格迁移、视频理解(自动剪辑、视频搜索)、文本生成图片、视觉大模型、神经渲染(NeRF 神经辐射场)…

OpenMMLab 基础

  • OpenMMLab 是基于 PyTorch 搭建的算法库,是深度学习用在计算机视觉方向的主流开源算法库(下图是1.0版本的架构图,目前正在迁移到2.0,2022年发布)。

    在这里插入图片描述

  • MMDetection:目标检测、实例分割、全景分割(在实例分割基础上也对环境做感知);

  • MMDetection3D: MMDetection 用于 2D 数据,MMDetection3D 处理 3D 点云数据;

  • MMClassification:

  • MMSegmentation:无人驾驶、遥感、医疗影像分析

  • MMPose & MMHuman3D:人体姿态估计

  • MMTracking:视频目标检测、单目标跟踪、多目标跟踪

  • MMAction2:行为识别、时序动作检测、时空动作检测

  • MMOCR:文本检测、文本识别、关键信息提取

  • MMEditing:图像修复、抠图、超分辨率、图像生成

OpenMMLab 2.0

更细节内容请看官方介绍或者repo中的pdf原文件。

机器学习和神经网络简介

这部分内容与计算机视觉无关,这里略掉,笔记默认读者有机器学习、深度学习基础概念,但没有系统学习计算机视觉。

猜你喜欢

转载自blog.csdn.net/qq_33583069/article/details/128858373