学习计算机视觉:(三)深度学习在计算机视觉中的应用

1.图像分类:卷积神经网络CNN

  1. 图像分类概念
    首先,图像分类是解决是什么的问题?
    如下图,给定一幅图片,网络能够给出“最像”什么的概率:
    这里写图片描述

  2. 图像分类使用的技术

    •卷积神经网络CNN
    它是计算机视觉中的基础网络,有监督深度模型时代的起点
    AlexNet,VGG,GoogLeNet,ResNet,ResNeXt
    • GoogLeNet
    Inception V1 -> V2 -> V3 -> V4
    Inception ResNet V1 -> V2
    • 结构趋势
    更深(Depth):8层 -> 1000+层
    更宽(Width):1分支 -> 4+分支
    更多基数(Cardinality ):1 -> 32

2.图像检测:区域卷积神经网络R-CNN

  1. 图像(目标)检测的概念
    首先,什么是目标检测?
    这里写图片描述

  2. 图像检测使用的技术
    •区域卷积神经网络R-CNN
    让基础网络具备区域输出能力
    第1阶段:R-CNN -> SPP-Net -> Fast/Faster R-CNN
    第2阶段:YOLO -> SSD -> R-FCN
    •目的
    检测更快、更准确
    • 工业应用
    智能监控
    辅助驾驶

3.图像分割:全卷积神经网络FCN

  1. 图像分割的概念
    首先,什么是图像分割?
    这里写图片描述
  2. 图像分割使用的技术
    • 全卷积神经网络FCN
    让基础网络做像素输出
    FCN -> SegNet/DeconvNet -> DeepLab
    • 目的
    语义推断
    分割更精确
    • 工业应用
    辅助驾驶

4.图像描述&图像问答:迭代神经网络RNN

  1. 图像描述&图像问答的概念
    首先什么是图像描述&图像问答?
    这里写图片描述
    • 视觉&语言
    图片描述 (Captioning)
    图片问答(Question Answering)
    • Caption(图片生成说明)
    一个人在用自动驾驶系统开车
    • QA(图片生成问答)
    Q:这个人为什么双手离开了方向盘
    A:因为他启动了无人驾驶功能

  2. 图像描述&图像问答所用到的技术
    •递归神经网络RNN
    具有记忆功能,构建不定长序列数据的模型
    Vanilla RNN -> LSTM -> GRU
    • 应用范围
    文本序列
    区域序列
    视频序列
    • 研究问题
    图片描述、问答

5.图像生成:生成对抗网络GAN

  1. 图像生成的概念
    首先,什么是图像生成?
    这里写图片描述
  2. 图像生成所用到的技术
    • 生成对抗网络GAN
    • 网络结构
    生成器网络( Generator )
    判别器网络( Discriminator )
    • 网络路线
    无监督:GAN -> DCGAN -> wGAN
    有监督:SRGAN、SalGAN 、RLA
    • 应用范围:
    样本数据分布(生成)学习
    半监督问题的数据增强
    有监督问题的优化(Dynamic loss)

猜你喜欢

转载自blog.csdn.net/weixin_37251044/article/details/80690776