【斯坦福CS231n《深度视觉识别》课程(2017)】lecture11_Detection and Segmentation

企业开发 2022-03-23 11:08:19 阅读次数: 0

视频链接：https://www.bilibili.com/video/BV1Dx411n7UE?p=11

文章目录

收获

收获

本节讲了语义分割，分类 + 定位，目标检测，实例分割。

语义分割：每个像素点都要有分类。
1. 每个像素点做一个滑动窗口？（计算昂贵）
2. 全卷积，共享卷积计算
3. 下采样 + 上采样（进一步优化）
分类 + 定位（一个对象）
1. 在分类的基础上多加一个分支做回归任务
目标检测（多个对象）
1. 不知道对象有多少个，所以不能用上面的方法。
2. R-CNN（Region Proposals给出候选框），Fast R-CNN（Region Proposals在特征层上做），Faster R-CNN （RPN网络代替Region Proposals）
3. YOLO / SSD（直接一次输出所需要的目标（位置，分类））
实例分割（对象像素点分类）
1. Mask R-CNN（上面分支做目标检测，下面分支做语义分割，Mask R-CNN统一这些框架，还可以加多一个分支（固定数量的预测）做姿态估计）

Mask R-CNN给我最大的启示：

你可以将多个想法结合在一起，用其它问题学到的组件组合在一起，共同构造一个端到端的网络。例如提到的Dense Captioning 和 Mask R-CNN does pose（Mask R-CNN做姿态估计（目标检测 + 实例分割 + 定位））

1. 总览

在这里插入图片描述

2. Semantic Segmentation（产生输入图像每个像素的类别标签）

在这里插入图片描述
不区分实例，可能重复在一起，如右下，

Semantic Segmentation Idea：Sliding Window（第一个浅显的想法，计算昂贵）

在这里插入图片描述

Semantic Segmentation Idea：Fully Convolutional（共享卷积计算，缺点：计算昂贵，占用大量内存）

在这里插入图片描述
Q1：训练数据哪里来？

Q2：损失函数是什么？
每个像素的交叉熵损失
Q3：一开始就知道训练的类别？
是的，固定标签

Semantic Segmentation Idea：Fully Convolutional（改进版：下采样）

在这里插入图片描述

Q4：如何进行上采样？

在这里插入图片描述

下采样和上采样是结构对称的，哪个元素也是对应的

在这里插入图片描述
Q5：为什么这样做是个好主意？（指上下采样元素对应）
最大池化会丢掉一些空间信息，需要从这个元素还原回来处理细节

在这里插入图片描述

Learnable Upsampling：Transpose Convolution（可学习的上采样，转置卷积）

卷积
在这里插入图片描述
跨步卷积（指stride = 2）

在这里插入图片描述

转置卷积（重叠的部分求和，这样边界就凸显了？）

转置卷积，1D展示

语义分割总结，模型概览

3. Classfication + Localization

在这里插入图片描述
加多一组，把Localization当作是回归问题

Aside：Human Pose Estimation

分类 + 定位总结：固定数量的回归输出

在这里插入图片描述

4. Object Detection

在这里插入图片描述
目标检测难点：不知道多少个对象

Object Detection as Classification：Sliding Window（不可行，不知道框的位置，大小，长宽比）

在这里插入图片描述

在这里插入图片描述

Region Proposals（固定算法，作用：给出候选框）

在这里插入图片描述

R-CNN（利用Region Proposals给定的候选框）

运行大约每张图2000框候选框，慢
在这里插入图片描述

Fast R-CNN（在特征图上做Region Proposals，最后一层直接做分类 + 预测，瓶颈在Region Proposals）

在这里插入图片描述

Faster R-CNN（利用一个RPN网络代替Region Proposals算法）

在这里插入图片描述

Detection without Proposals：YOLO / SSD

在这里插入图片描述

Aside：Object Detection + Captioning = Dense Captioning（目标检测 + RNN）

在这里插入图片描述

介绍上面那个目的：你可以将很多想法组合在一起（good idea）

在这里插入图片描述

5. Instance Segmentation

在这里插入图片描述

Mask R-CNN

在这里插入图片描述
多分支
上面的分支是目标检测
下面的分支是语义分割
就这样组合起来训练一个端到端的网络，cool！

再加多一个分支：预测关节这些坐标（做姿态估计）

猜你喜欢

转载自blog.csdn.net/weixin_43154149/article/details/123248845

【斯坦福CS231n《深度视觉识别》课程(2017)】lecture11_Detection and Segmentation

卷积神经网络 + 机器视觉： L11_Detection and Segmentation 目标识别与分割 (斯坦福CS231n）

CS231n: Lecture 11 | Detection and Segmentation

【斯坦福CS231n《深度视觉识别》课程(2017)】课程主页 & 作业 & 笔记

CS231n学习笔记--11.Detection and Segmentation

[深度学习与计算机视觉] 斯坦福 CS231n 2017 学习笔记 -1 (Lecture 1: Introduction;课程介绍)

CS231N斯坦福深度视觉识别课程1. Introduction to CNN for visual recognition

CS231n 斯坦福深度视觉识别课学习笔记

CNN笔记（CS231N）——图像检测与图像分割（Detection and Segmentation）

斯坦福CS231n深度学习与计算机视觉课程学习笔记（3）——Loss Functions and Optimization

斯坦福CS231n深度学习与计算机视觉课程学习笔记（2）——Image Classification

斯坦福CS231n深度学习与计算机视觉课程学习笔记（1）——Introduction

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课,李飞飞

斯坦福CS231n课程资源

斯坦福cs231n计算机视觉经典课程笔记（更新中）

斯坦福CS231n Spring 2017开放全部课程视频

斯坦福CS231N深度学习与计算机视觉

斯坦福深度学习课程cs231n作业笔记二：SVM实现相关

深度学习斯坦福cs231n 课程笔记

Mac Segmentation fault: 11

全球名校课程作业分享系列(8)--斯坦福计算机视觉与深度学习CS231n之tensorflow实践

全球名校课程作业分享系列(6)--斯坦福计算机视觉与深度学习CS231n之神经网络细解与优化尝试

全球名校课程作业分享系列(5)--斯坦福计算机视觉与深度学习CS231n之特征抽取与图像分类提升

全球名校课程作业分享系列(3)--斯坦福计算机视觉与深度学习CS231n之softmax图像多分类

全球名校课程作业分享系列(2)--斯坦福计算机视觉与深度学习CS231n之SVM图像分类

全球名校课程作业分享系列(1)--斯坦福计算机视觉与深度学习CS231n之KNN

资源 | 斯坦福CS231n Spring 2017详细课程大纲（附完整版课件下载）

【deep learning】斯坦福CS231n—深度学习与计算机视觉(资料汇总)

全球名校课程作业分享系列(11)--斯坦福CS231n之生成对抗网络

斯坦福深度学习课程cs231n assignment1作业笔记三：softmax实现相关

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)