课程介绍

线上讲授+答疑
编程作业+文献阅读作业 30%
课堂开卷 70%

什么是计算机视觉

视觉：通过看来明白那是什么（To know what is where by looking）
感知的用途：
- 适应环境
- 控制行动
计算机视觉：研究视觉感知的学科
感知：对感受信息的解析
认知：获取知识的过程
感知的核心科学问题：表达和解释（并非理解）
计算机视觉的莫表：构建一个像人的视觉系统一样具有通用性和灵活性的计算机视觉系统
计算机视觉：从图像到三位场景表达
计算机图形学：从三维场景表达到图像
视觉知识表达：图像、视频、语音——视觉概念与概念之间的关系——推理

计算机视觉发展的四个重要历程

马尔计算视觉理论
- 计算视觉理论：对图像信息的逐层加工处理过程
- 三个层次
  - 计算理论层次
  - 表达与算法层次
  - 算法实现层次
- 视觉感知主要目标：从图像逐层构建物体的三维形状表达（三维重建）
  - 计算理论——三维几何描述
  - 表达层次——三层表达（图像——基元——2.5D（观察者坐标系）——3D（物体坐标系表达））
    - 基元表达——计算可见表面信息——集成曲面深度、朝向、轮廓等信息——物体坐标系形状表达
  - 算法层次——边缘提取、立体匹配
  - 实现层次——神经计算或计算机
- 生物视觉主流观点认为深度信息不必要
- 人类视觉包含物体视觉和空间视觉，后者更需要三维形状信息
- 概念时推理的基础，三维形状信息也是组成概念的一部分
主动视觉大辩论
- 对马尔视觉理论的质疑和批评——从下到上的理论，缺乏高层知识反馈指导，缺乏木钉刑和主动性
- 目的性和主动性可以融入到马尔的计算视觉框架
- 主动视觉的困难：注视和反馈
分层三位重建理论
- 分层重建：图像——射影重建（保持直线）——仿射重建（保持平行）——欧氏重建（保持垂直）
- 优势：每步涉及的优化变量少，重建的鲁棒性高
基于学习的视觉
- 子空间方法（流形）
  - 高维数据在低维空间可以实现聚类
- 深度学习方法
  - DNN：层叠结构表达力强，感受野数据驱动
  - 物体识别——场景理解（图像——视频）
  - 前馈网络——反馈网络 / 循环网络
  - 深度网络可解释性
马尔三维冲概念理论：识别物体，大脑要有对物体的表达，即三维形状
巴乔的二维图像模型：大脑对物体的表达是一组不同姿态下的二维图像特征
- Hmax模型
迪卡洛的分层去纠缠理论：层次化处理，逐渐去除与物体类别无关的干扰信息，达到线性空间具有可分性的物体表达（流行学习思想）
- Untangling模型
猜想：物体识别的逆生成模型
- 从图形逐层回复生成图像的参数（姿态、光照、几何、纹理……）
- 图像——逆变换模型——图像生成参数——图像生成模型——图像

一只派大星

发布了16 篇原创文章 · 获赞 0 · 访问量 73

私信关注

UCAS-AI学院-计算机视觉专项课-第1讲-课程笔记

UCAS-AI学院-计算机视觉专项课-第1讲-课程笔记

课程介绍

什么是计算机视觉

计算机视觉发展的四个重要历程

猜你喜欢