计算机视觉概念——cs231n重点总结

1.动物视觉历史

2.猫视觉的试验,猫的初级视觉细胞对边缘产生回应

猫视觉系统存在层级结构,对应现在的卷积操作和池化操作

3.计算机视觉发展历史  (直接分类-->手动提取特征-->神经网络)

卷积神经网络:针对图像任务提出的神经网络

 没有反向传播算法更新权值,模型性能有限

 无大量数据和高性能计算资源

感受(视)野:神经元存在局部感受区域

 x表示有响应,三角表示无响应

 细胞对角度有选择性

对CNN启发
(1)视觉系统是分层、分级的进行处理,从低级到高级的抽象过程,堆叠使用卷积和池化
(2)神经元实际上是存在局部的感受区域的,具体说来,它们是局部敏感→神经元局部连接?

4.目标检测的数据集合 pascal  voc

5.Imagenet数据集合  

6.sift feature 是什么,可以用来干什么。金字塔匹配思想是什么,可以用来干什么。 hog特征是什么,可以用来干什么。了解一下pascal voc数据集合及imagenet数据集合

7.近邻算法

k值选择,度量距离,分类决策规则

        L1曼哈顿距离,非距离不变量。大小取决于选择的坐标系统

        L2欧几里得距离,大小跟坐标系统无关。

        

下面哪个关于k-最近邻(k-NN)的陈述在分类设置和所有k是正确的?选择所有应用。

1. 1-NN的训练误差总是比5-NN的训练误差好。 

在训练集中,取样本的top1肯定是样本自己,而取top5里面不一定是该label的样本最多,所以top1一定比top5好

2. 1-NN的测试误差总是比5-NN的测试误差好。

在测试集中,是不一定的,有可能top1好,有可能top5好

3.k-NN分类器的决策边界是线性的。

knn的决定边界不是线性的,而是每次根据算出来的结果去找出现最多的label,[更多内容](https://blog.csdn.net/HJWdm/article/details/26239907)

4. 使用k-NN分类器对测试样本进行分类所需的时间随着训练集的大小而增长。

如果训练集变大了,那么每个测试样本过来需要和所有的训练样本计算距离,时间当然变长了

图像识别的特点:

特征具有局部性,特征可能出现在任何位置,下采样不改变图像目标

参数共享:

 特征图:对图像特征提取的输出

 填充:padding

使卷积后图像分辨率不变,方便计算特征图尺寸的变化弥补边界信息“丢失".

 特征图尺寸计算

输出尺寸 = 输入尺寸-卷积核尺寸+2*padding /步长 +1

 多通道的卷积:RGB图像卷积是2D卷积,视频等加入时间维度的才是三维卷积

池化:下采样图像不会改变图像特征的相对位置

           用一个像素代替一块像素

         步长=2的卷积相当于池化,将图像的分辨率降低一半

          池化是一种特殊的卷积

         1.缓解卷积层对位置的过度敏感(对异常点敏感)

8 优化

这部分主要包括两个内容一个是优化方法。另一个是传统图像识别方法两步走策略。

优化方法 主要是学习常用的优化算法学习,例如梯度下降,带动量的梯度下降以及Adam等一系列优化方法。其中本节课提到了梯度、导数的含义以及学习率这个重要的超参数,这个超参数是我们训练神经网络需要首要考虑的。随机梯度下降使用minibatch数据来估计总的误差以及梯度,这样速度比使用全部数据计算更快。

两步走策略重点介绍了传统方法如何做图像分类任务。第一步提取图像的特征:颜色分布,HOG, SIFT特征,bag of words。第二使用步分类算法进行识别图像类别。

梯度下降常用的优化策略 sgd adam等方法是大家重点要学习的 ,两步走策略进行图像识别步骤 需要了解。

          


         2.减少冗余
        3,降低图像分辨率,从而减少参数量

计算机视觉的思想

1.模板匹配的方法:W是特征矩阵,列向量是展成的像素矩阵,有点像码分复用

Guess you like

Origin blog.csdn.net/weixin_45955767/article/details/120391024