2023-2-1-openMMLab AI实战营 笔记(一)

一、计算机视觉基础

概念及应用

计算机视觉任务:图像分类(classification)、目标检测(object detection)、图像分割(segmentation)。

其中图像分割又分为语义分割(semantic segmentation)、实例分割(instance segmentation)。后者不仅将像素抠出来还区分类别。

计算机视觉处理任务:

6fb211a1c9fe4dc7aebdf67f586580c6.jpg

12年Alex net之后,深度学习的使用错误率不断下降。

f0fcb8b35cb94c239e9ce450797034f7.jpg

层数不断增加 错误率不断下降。 

计算机视觉:让计算机学会“看”的学科,研究如何自动理解图像和视频中的内容。图像分类,目标检测,图像分割。

图像分类:经常也称为图像识别,识别图像中的物体是什么。比如扫一扫识物。

人脸检测:单个人脸检测。目标检测分为通用目标检测和特定目标检测。

计算机视觉应用场景:无人驾驶避障车道检测

动漫特效:图像生成,迁移

虚拟人物:人脸关键点检测 cg

视频理解和自动剪辑:

计算机视觉的发展:

早期萌芽(1960-1980)

统计机器学习与模式识别(1990-2000)

    视觉特征

    imageNet

初见成效的视觉系统(~2010)

深度学习时代(2012~)

    AlexNet(hinton图灵奖获得者 图像分类),fast rcnn(目标检测)

时至今日(~)

    文字描述生成图片,视觉大模型,神经渲染 citynerf。

各大开源深度学习框架:

2cb0f4172bcb428a87058553a0bf326d.jpg

二、openMMLab算法体系

总体现状:一个统一先进的底层架构;20+计算机视觉研究方向;300+经典、前沿算法;2000+预训练模型。

开源历程:2018~

总体架构概览:

算法训练-部署一体化:MMDeploy库部署各种设备上

算法框架介绍:

MMDetection:目标检测、实例分割、全景分割(基于实例分割,+背景分割)

MMDetection3D:3D目标检测

MMClassification:图像分类;具有丰富的模型库(VGG、ResNet、...)

MMSegmentation:图像分割;无人驾驶、遥感、医疗影像

MMPose&MMHuman3D:人体分析(2D/3D、图像/视频、形状/关键点、全身/人脸/人手)

MMTracking:追踪(视频物体检测、单目标追踪、多目标追踪)

MMAction2:视频行为理解(行为识别、时序动作识别、时空动作识别)

MMOCR:文本检测和文字识别

MMEditing:图像像素处理(图像修复、抠图、超分辨率、图像生成)

OpenMMLab 2.0,更强

三、机器学习及神经网络基础

 机器学习基础

机器学习:从数据中学习经验,以解决特定问题

监督学习:数据之间存在某种关系,如何基于样本推断关系?有标签。

无监督学:数据自身是否存在某种规律?无标签。

自监督学习:

强化学习:如何和环境交互,以获得最大利益?自适应环境。

机器学习的分类问题

 

 

机器学习流程:训练(采集数据、标注数据、训练数据)、验证(训练集、测试集、验证集)、应用(部署到实际业务系统)

以下关于神经网络就简单过了一遍,没有具体做笔记。

神经网络结构

线性分类器无法拟合曲线,神经网络属于非线性;

神经网络训练

卷积神经网络

为什么需要CNN?——参数量大、没有考虑图像本身的二维结构

卷积神经网络:卷积层和池化层、全连接层

pytorch环境配置与基础使用

pytorch官网

pytorch基本模块:

torch库:

多维数组的数据结构tensor(0维就是标量、1维就是向量、2维就是矩阵(一页纸)、3维就是很多矩阵叠在一起(很多纸叠在一起,一本书)、4维就是一本本书叠在一起,一层书,5维就是很多层书,书柜。

多维数组的运算

多计算后端支持

torch.autugrad自动求导:

torch.nn.functional 函数库:

torch.nn.Module 通用模型封装:

torch.optim 优化器:

 

torch.utils.data 数据工具:
 

猜你喜欢

转载自blog.csdn.net/weixin_59605625/article/details/128846516