本笔记根据PaddlePaddlePPT中第5章内容整理总结。

概述

1.1 图像识别目标

1.2 图像识别挑战

l 语义鸿沟（Semantic Gap）现象：图像的底层视觉特性和高层语义概念间的鸿沟

1.3 图像识别基本框架

测量空间特征空间类别空间

传统图像识别技术

2.1 早期图像识别技术（1990-2003）

2.1.1 特征提取

l 全局特征提取：用全局的视觉底层特性统计量表示图像

图片被表示成向量：原图片向量空间映射向量表示

l 全局特征示例：颜色特征、纹理特征、形状特征

l 特征变换：提高特征表示性能

l 流形学习（Manifold Learning）：高维数据映射为低维空间下的向量表示

l 简单特征变换：中心化、归一化、去相关、白化

2.1.2 索引技术

2.1.3 相关反馈

2.1.4 重排序

2.2 中期图像识别技术（2003-2012）

2.2.1 特征提取

l 局部特征（Local Feature）：图像区块（Patch）的向量

l 特征检测子（Feature Detector）：检测图像区块中心位置（interest points）

l 特征描述子（Feature Desciptor）：描述区块的视觉内容

l 局部检测子：Harris，DoG,SURF,Harris-Affine，Hessian-Affine，MSER

l 局部描述子：SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE

2.2.2 向量化

l 局部特征转化为视觉关键词（即特征量化，Feature Quantization）：查找视觉关键词，转化局部特征向量为关键词序号

l 常用特征量化技术：Hierarchical 1-NN、KD-tree

l 基于视觉关键词的图像表示：

图像局部特征视觉词袋→视觉关键词直方图

2.2.3 索引技术

l 倒排索引

l 排序：tf-IDF加权（Term frequency-inverse document frequency）

2.2.4 后处理

l 查询扩展：使原有查询项含更多局部特征，再进行扩展查询

l 其他后处理技术：局部几何验证（Local Geometric Verification）、乘积量化（Product Quantization）

深度学习与图像识别

3.1 深度学习发展历程

l 深度学习在图像领域的应用：图片检索、识别异常的肿瘤、图片描述、图片着色

3.2 为什么使用深度学习

l 人脑视觉机理：1）视感觉阶段-信息采集 2）视知觉阶段-信息认知

l 神经-中枢-大脑:原始信号摄入（像素）-初步处理（边缘、方向）-抽象（形状）-进一步抽象（具体物体）

3.3 如何使用深度学习

3.3.1 如何使用深度学习解决图像识别

l 使用机器学习（深度学习）的目的：寻找一个合适的函数

3.3.2 使用步骤：建立模型（人）、损失函数（人）、参数学习（机器）

3.3.3 建立模型

l 常用激活函数：Sigmoid、TanH、ArcTan、ReLU、PReLU

l 前置神经网络：输入层→隐藏层→输出层

l 模型例子：AlexNet、VGG、GoogleNet、Residual Net

l 输出层：softmax函数作为输出层激活函数，易理解好计算

l 设置合适的网络结构：层数、节点个数、激活函数

3.3.4 损失函数

l 常用损失函数：平方损失函数、交叉熵损失函数

l 总损失：

3.3.5 参数学习

l 梯度下降：

l 反向传播算法：链式法则

课程实践

l 人脸识别

5-图像处理与深度学习-读书笔记

本笔记根据PaddlePaddlePPT中第5章内容整理总结。

猜你喜欢