cs231n学习笔记（二）图像分类 - 代码天地

cs231n学习笔记（二）图像分类

其他 2018-07-29 17:30:17 阅读次数: 0

图像分类可说是计算机视觉中的基础任务同时也是核心任务，做好分类可为检测，分割等高阶任务打好基础。

本节课主要讲了两个内容，K近邻和线性分类器，都是以猫的分类为例。

一.　　K近邻

以猫的分类为例，一张含有猫的图片，也不过就是一堆像素点

问题就在于给你一堆点，如何判断出是一只猫，在很久很久以前，这还真是个超级难题，何况不同的猫，像素点完全不一致

具体来说可有以下几种

光照，目标的形变，遮挡，背景杂乱，类内差异等等。

如何利用K近邻算法解决这一问题呢，K近邻，就是将你要判别的目标与已有的大量目标进行比较，与谁最近，就是哪一类，有点物以类聚的意思，不过，只选

取最近的一张作为参照有致命缺陷，保不准就有哪只狗与该目标相近，于是你就把这只猫判断为狗了，所以保险起见，会取最近的K张图片作为参照，其中哪一类

最多，就归属于哪一类，这种做法难说完美，不过比一张靠谱多了。

下面以cifar-10数据集为例展示下k近邻算法。

cifar-10数据集包含10类目标，图像尺寸均为32x32，在充满着高清无码大图的现代社会，着实有些复古。

左图就是数据集的一个图示，右图是根据测试图片选取的10张最近图像，由于图像太小，有些看不清。

那么什么样的图像是比较接近的，或者说如何测量两张图象的距离呢

一种测距方式是L1距离，也叫曼哈顿距离，举例来说，坐标系中两个点（1，1）和（2，2），L1=(2-1)+(2-1)=2，通俗点说你只能直来直去，不能斜着来。

不过对于图像而言，L1并不是一种合适的测距方式，图像不过是一堆像素，你完全可以构造两个L1距离相同的图像，其像素排列却是有很多变化。

像下面这样，右侧三张图与最左侧的距离是一样的，然而三张图却各有不同。

具体计算方式可以像下面这样。

L2距离也许是一种更合适的方式，L2距离，也称欧式距离，L2=√((2-1)**2+(2-1)**2)=√2

在课程的k近邻算法展示主页上，可以自行感受下L1与L2的区别，http://vision.stanford.edu/teaching/cs231n-demos/knn/

除了距离的度量方式，K值的选择也是一个关键因素，很大程度上决定着k近邻算法的好坏，通常不会取为1，只参照一张最相近的的图像来判断测试图像有很大的偶然性。

下图是最好的说明。

在上图中，不同颜色代表不同类别，标出的点是训练数据集，那些没有点的颜色区代表你的测试图像，根据最近邻原则分类，并上色。

可以看到，k=1时类别边界崎岖不平，有些突起已经深入其它类内，显然不合理，再注意绿色中间的黄色区域，代表着该点周围的点被归为黄色类，只因为与该黄色点最近，

显然也是错误的，k=1时分类效果易受噪声影响，具有偶然性。随着k的加大，类别边界趋于平滑，给人的感觉也更加合理，出现的白色区域根据上面的演示网址所说，是投票

数均等的区域，就是无法决策的区域。

那么如何选择测距方式和K值呢，在机器学习里，这些无法训练得来，需要手动设定的参数成为超参数，超参数的设置需要通过实验试探得到，具体需要根据数据集划分来决定。

如上图所示，数据集最佳划分为训练集，验证集，测试集，仅有训练集和验证集都无法保证良好的泛化能力（也就是应用在其它未出现过的数据上），当然，有测试集也无法一定确保良好的泛化能力，但还是比前两个要好很多。

还有一种划分方式为交叉验证，一般用于小型数据集，数据集既能用来训练，又能用来验证。

下图是针对k近邻的5折交叉验证方式，k=7时取得最好结果。

最后总结下，k近邻作为一种简单的分类算法，有着其天然缺陷，一是k值的设置需要实验来确定，二是需要事先存储训练数据集以用来分类，三是致命的一点，每次测试都需要与所有数据进行距离计算，太耗计算资源。

那么，有没有其它办法呢，有，就是接下来要讲的线性分类器。

二.线性分类器

线性分类器基于简单的代数运算，就是相乘相加，以一张猫的图片为例，每一个像素点都有像素值，对每一个点乘以一个权重再相加，就可以输出一个标量值，当你为这个值赋予一定含义的时候，比如正代表动物，负代表其它，那它就构成了一个简单的线性分类器。

同样道理，你也可以输出一个向量，如果进行10分类，则可以输出10维向量。

再具体点，像下面这样。

下面这样

可以将整幅图像看成高维空间中的一点，线性分类器就是点与点之间的分类平面，如果是猫狗二分类，猫的点在一边，狗的点在另一边，中间是分类平面。

画出来就像下面这样。

有了这样的想法，下一步就是设置合适的权重w与偏置b，如何设置涉及到损失函数与最优化的学问，那是下堂课要讲的故事。

猜你喜欢

转载自www.cnblogs.com/wzyuan/p/9382730.html

cs231n学习笔记（二）图像分类

【cs231n】图像分类笔记

cs231n图像分类笔记（上）学习记录

CS231n课程笔记：图像分类笔记（上）

CS231n课程笔记：图像分类笔记（下）

CNN笔记（CS231N）——图像分类（Image Classification）

cs231n 图像分类

cs231n图像分类小结

【cs231n作业笔记】二：SVM分类器

CS231n《深度学习与计算机视觉》 -- 第二讲图像分类

【cs231n作业笔记】一：KNN分类器 CS231n——图像分类（KNN实现）

cs231n 学习笔记（1）- 计算机视觉和图像分类

CS231n学习笔记1-图像分类，KNN

【cs231n学习笔记（2017）】—— 线性分类

【cs231n】线性分类笔记

【cs231n学习笔记】——— KNN

[cs231n学习笔记]

CS231n学习笔记-前言

cs231n深度学习笔记

CS231N, 学习笔记

cs231n学习笔记

cs231n学习（1）图像分类器：KNN和线性分类器（上）

CS231N——图像分类（课时4）

CS231N Assignment5 图像分类练习

CS231n章节一：图像分类

CS231n课程笔记翻译：图像分类笔记（上）

cs231n图像分类KNN笔记对应的python代码，可直接运行

cs231n笔记

cs231n-学习笔记-01图像分类(续)

cs231n-学习笔记-01图像分类

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)