机器视觉算法工程师成长之路
学习导图(后续将持续更新)
如果说工业机器人是人类手的延伸、交通工具是人类腿的延伸,那么机器视觉就相当于人类视觉在机器上的延伸。机器视觉实现了对工件尺寸、形状、颜色等特征的自动判断和识别,可以让机器代替人眼做测量和判断,是实现工业自动化和智能化的必要手段
。
- 关于 甘特图 语法,参考 [这儿]
项目 | 书籍 |
---|---|
参考书一 | 数字图像处理基础 |
参考书二 | Linux基础学习篇 |
参考书三 | python编程语言 |
参考书四 | opencv手册 |
参考书五 | 深度学习 |
模块一:数字图像处理基础
图像是客观对象的一种相似性的、生动性的描述或写真,是人类社会活动中最常用的信息载体。
或者说图像是客观对象的一种表示,它包含了被描述对象的有关信息。它是人们最主要的信息源。据统计,一个人获取的信息大约有75%来自视觉。
图像处理是对图像进行分析、加工和处理,使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域上的一个应用。
1.1 图像的分类
- 按可见性分:可见图像和不可见图像。
可见光下人眼视觉图像;不可见的物理图像和数学连续函数或离散函数生成的抽象图像: - 按波段数分:单波段、多波段和超波段(不同波段数字图像)
单波段数字图像指在某一波段范围内工作的传感器获取的遥感数字图像。如SPOT 卫星提供的10 m 分辨率全色波段遥感图像。每景图像为6000行x6 000列的数组,每个像素采用1字节记录地物亮度值。
按波段(通道)数量可分为多波段遥感影像和单波段遥感影像。比如常用的landsat5的TM影像就是多通道遥感影像,它有7个波段。在不同的波段,地物会有不同的反射率,可以作为地物分类的一个依据。采用多波段的遥感数据更能真实地还原地物特征。
Gamma-射线成像,X射线成像,紫外线波段成像,可见光波段成像,红外线波段成像,微波波段成像(雷达成像),射频波段成像(MRI)。 - 按空间坐标和亮度的连续性分:模拟和数字
1.2 数字图像的概念(定义)
1.2.1 源图像数据:raw image
RAW的原意就是“未经加工”。可以理解为:RAW图像就是CMOS或者CCD图像感应器将捕捉到的光源信号转化为数字信号的原始数据。RAW文件是一种记录了数码相机传感器的原始信息,同时记录了由相机拍摄所产生的一些元数据(Metadata,如ISO的设置、快门速度、光圈值、白平衡等)的文件。RAW是未经处理、也未经压缩的格式,可以把RAW概念化为“原始图像编码数据”或更形象的称为“数字底片”。RAW格式的全称是RAW Image Format,在编程中称之为原始。
计算方式
传统CCD每个像素只能感光一种颜色,根据感光的强度不同转换成不同的数字,不同的CCD这一数字范围是不同的,早期的8bit,到10bit、12bit。8bit就是一个点感光从最暗到最亮分为256个层次,10bit就是1024个层次,以此类推。
假设300万像素每个像素包含10bit的数字信息,那么它的未压缩的RAW文件大小:
3,000,000 * 10bit = 30,000,000 bit = 3,750,000byte ≈ 3662.1K ≈ 3.58M
一般相机还会对raw文件进行压缩,是类似zip的无损压缩算法,文件还会更小一些。
1.2.2数字图像的概念(定义)
从物理和数学的角度看,图像是记录物体辐射能量的空间分布,这个分布是空间坐标、时间坐标和波长的函数:
I = f(x,y,z,λ,t),x,y,z是空间坐标,λ是波长,t是时间,I是像素点的强度。它表示活动的、彩色的/三维的视频图像。
通常,一幅图像可以被看成是空间各坐标点彩色强度的集合。对于静止图像,则与时间t无关;对于单色图像,则波长λ为常量;对于平面图,则于坐标z无关。
如表示一幅静止的平面单色图:**I=f(x,y)**或(r,g,b)=f(x,y)。
更多更具体描述参见博客。
1.3 数字图像处理
1.3.1 图像缩放的定义和实现
图像缩小分为按比例缩小和不按比例缩小两种。图像向缩小后,因为承载的信息量减少,所以画布可相应缩小。图像缩小实际上就是对原图数据进行挑选和处理,获得期望缩小尺寸的数据,并尽量保持原有特征不丢失。最简单的方法就是等间隔地选取数据。
图像放大从信息处理的角度来看,与图像缩小难易程度完全不一样,图像缩小是从众多信息中选出需要的信息,而图像放大则是需要对多出的空位填入适当的值,是信息的估计。
更多更具体描述请参照博客图像缩放。
1.3.2 改变图像亮度对比度
1.4 常用的图形文件存储格式
- PNG格式 :PNG是将点阵图进行不失真(可逆)压缩,并具有互换相容性的文件格式。而且提供了“免专利”的文件格式,并且支持色盘、灰阶、全彩等模式,还可以支持透明度的处理 ;
- CDR格式:该格式是CorelDraw软件专用的一种图形文件存储格式;
- AI格式:该格式是Illustrator软件专用的一种图形文件存储格式;
- DXF格式:是AutoCAD软件的图形文件格式,该格式以ASCII方式存储图形,可以被CorelDraw、3Dmax等软件调用和编辑;
- EPS格式:该格式是一种通用格式,可用于矢量图形、像素图像以及文本的编码,即在一个文件中同时记录图形、图像与文字;
- BMP格式:是Windows中的标准图像文件格式,它以独立于设备的方法描述位图,各种常用的图形图像软件都可以对该格式的图像文件进行编辑和处理;
- TIFF格式:该格式是常用的位图图像格式,TIFF位图可具有任何大小的尺寸和分辨率,用于打印、印刷输出的图像建议存储为该格式;
- PSD格式:该格式是Photoshop软件中使用的一种标准图像文件格式,可以保留图像的图层信息、通道蒙版信息等,便于后续修改和特效制作。
- JPEG格式:是一种高效的压缩格式,可对图像进行大幅度的压缩,最大限度地节约网络资源,提高传输速度,因此用于网络传输的图像,一般存储为该格式;
- GIF格式:该格式可在各种图像处理软件中通用,是经过压缩的文件格式,因此一般占用空间较小,适合于网络传输,一般常用于存储动画效果图片;
- PDF格式:又称可移植(或可携带)文件格式,具有跨平台的特性,并包括对专业的制版和印刷生产有效的控制信息,可以作为印前领域通用的文件格式。
在计算机中常用的存储格式有:BMP、TIFF、EPS、JPEG、GIF、PSD、PDF等格式。
模块二:工具IDE和环境
关于pycharm
关于vs2015
数据库mysql
模块三:语言工具和库
python、下次补充
C++ 待补充
opencv
tensorflow
模块四:人工智能–神经网络算法
基础
卷积神经网络详解
经典算法
人工智能-迁移学习
应用实践
人脸表情分析识别
模块五:数据结构与算法
5.1 四则运算–后缀表达式
5.2 平衡二叉树 AVL
5.3 多路查找树 B-Tree
5.4 哈夫曼树和哈夫曼编码