Machine vision algorithm learning

Learning map (will continue to be updated in the future)

If industrial robots are an extension of human hands and vehicles are extensions of human legs, then machine vision is equivalent to the extension of human vision on machines. Machine vision realizes the automatic judgment and recognition of workpiece size, shape, color and other characteristics. It can allow the machine to replace the human eye to make measurement and judgment. It is a necessary means to realize industrial automation and intelligence.

Mon 02 Mon 09 Mon 16 Mon 23 Mon 30 Mon 06 Mon 13 Mon 20 Mon 27 Mon 03 Mon 10 Mon 17 Mon 24 Mon 02 数字图像处理基础 图像处理基础与opencv 图像识别与卷积神经网络 机器视觉应用实战 现有任务 图像算法工程师成长计划表
  • About Gantt syntax, reference [here]
project books
Reference Book One Fundamentals of Digital Image Processing
Reference Book Two Linux basic learning articles
Reference Book Three python programming language
Reference Book Four opencv manual
Reference Book Five Deep learning

Module 1: Fundamentals of Digital Image Processing

An image is a similar and vivid description or portrait of an objective object, and it is the most commonly used information carrier in human social activities.
In other words, an image is a representation of an objective object, which contains information about the object being described. It is the main source of information for people. According to statistics, about 75% of the information a person obtains comes from vision.
Image processing is a technology that analyzes, processes, and processes images to meet visual, psychological, and other requirements. Image processing is an application of signal processing in the image domain.

1.1 Classification of images

  1. According to visibility: visible image and invisible image.
    Visual image of the human eye under visible light; abstract image generated by invisible physical image and mathematical continuous function or discrete function:
  2. 按波段数分:单波段、多波段和超波段(不同波段数字图像
    单波段数字图像指在某一波段范围内工作的传感器获取的遥感数字图像。如SPOT 卫星提供的10 m 分辨率全色波段遥感图像。每景图像为6000行x6 000列的数组,每个像素采用1字节记录地物亮度值。
    按波段(通道)数量可分为多波段遥感影像和单波段遥感影像。比如常用的landsat5的TM影像就是多通道遥感影像,它有7个波段。在不同的波段,地物会有不同的反射率,可以作为地物分类的一个依据。采用多波段的遥感数据更能真实地还原地物特征。
    Gamma-射线成像,X射线成像,紫外线波段成像,可见光波段成像,红外线波段成像,微波波段成像(雷达成像),射频波段成像(MRI)。
  3. 按空间坐标和亮度的连续性分:模拟和数字

1.2 数字图像的概念(定义)

1.2.1 源图像数据:raw image

RAW的原意就是“未经加工”。可以理解为:RAW图像就是CMOS或者CCD图像感应器将捕捉到的光源信号转化为数字信号的原始数据。RAW文件是一种记录了数码相机传感器的原始信息,同时记录了由相机拍摄所产生的一些元数据(Metadata,如ISO的设置、快门速度、光圈值、白平衡等)的文件。RAW是未经处理、也未经压缩的格式,可以把RAW概念化为“原始图像编码数据”或更形象的称为“数字底片”。RAW格式的全称是RAW Image Format,在编程中称之为原始。
计算方式
传统CCD每个像素只能感光一种颜色,根据感光的强度不同转换成不同的数字,不同的CCD这一数字范围是不同的,早期的8bit,到10bit、12bit。8bit就是一个点感光从最暗到最亮分为256个层次,10bit就是1024个层次,以此类推。
假设300万像素每个像素包含10bit的数字信息,那么它的未压缩的RAW文件大小:
3,000,000 * 10bit = 30,000,000 bit = 3,750,000byte ≈ 3662.1K ≈ 3.58M
一般相机还会对raw文件进行压缩,是类似zip的无损压缩算法,文件还会更小一些。

1.2.2数字图像的概念(定义)

从物理和数学的角度看,图像是记录物体辐射能量的空间分布,这个分布是空间坐标、时间坐标和波长的函数:
I = f(x,y,z,λ,t),x,y,z是空间坐标,λ是波长,t是时间,I是像素点的强度。它表示活动的、彩色的/三维的视频图像。
通常,一幅图像可以被看成是空间各坐标点彩色强度的集合。对于静止图像,则与时间t无关;对于单色图像,则波长λ为常量;对于平面图,则于坐标z无关。
如表示一幅静止的平面单色图:**I=f(x,y)**或(r,g,b)=f(x,y)。
更多更具体描述参见博客

1.3 数字图像处理

1.3.1 图像缩放的定义和实现

图像缩小分为按比例缩小和不按比例缩小两种。图像向缩小后,因为承载的信息量减少,所以画布可相应缩小。图像缩小实际上就是对原图数据进行挑选和处理,获得期望缩小尺寸的数据,并尽量保持原有特征不丢失。最简单的方法就是等间隔地选取数据。
图像放大从信息处理的角度来看,与图像缩小难易程度完全不一样,图像缩小是从众多信息中选出需要的信息,而图像放大则是需要对多出的空位填入适当的值,是信息的估计。
更多更具体描述请参照博客图像缩放

1.3.2 改变图像亮度对比度

gama校正

1.4 常用的图形文件存储格式

  1. PNG格式 :PNG是将点阵图进行不失真(可逆)压缩,并具有互换相容性的文件格式。而且提供了“免专利”的文件格式,并且支持色盘、灰阶、全彩等模式,还可以支持透明度的处理 ;
  2. CDR格式:该格式是CorelDraw软件专用的一种图形文件存储格式;
  3. AI格式:该格式是Illustrator软件专用的一种图形文件存储格式;
  4. DXF格式:是AutoCAD软件的图形文件格式,该格式以ASCII方式存储图形,可以被CorelDraw、3Dmax等软件调用和编辑;
  5. EPS格式:该格式是一种通用格式,可用于矢量图形、像素图像以及文本的编码,即在一个文件中同时记录图形、图像与文字;
  6. BMP格式:是Windows中的标准图像文件格式,它以独立于设备的方法描述位图,各种常用的图形图像软件都可以对该格式的图像文件进行编辑和处理;
  7. TIFF格式:该格式是常用的位图图像格式,TIFF位图可具有任何大小的尺寸和分辨率,用于打印、印刷输出的图像建议存储为该格式;
  8. PSD格式:该格式是Photoshop软件中使用的一种标准图像文件格式,可以保留图像的图层信息、通道蒙版信息等,便于后续修改和特效制作。
  9. JPEG格式:是一种高效的压缩格式,可对图像进行大幅度的压缩,最大限度地节约网络资源,提高传输速度,因此用于网络传输的图像,一般存储为该格式;
  10. GIF格式:该格式可在各种图像处理软件中通用,是经过压缩的文件格式,因此一般占用空间较小,适合于网络传输,一般常用于存储动画效果图片;
  11. PDF格式:又称可移植(或可携带)文件格式,具有跨平台的特性,并包括对专业的制版和印刷生产有效的控制信息,可以作为印前领域通用的文件格式。
    在计算机中常用的存储格式有:BMP、TIFF、EPS、JPEG、GIF、PSD、PDF等格式。

模块二:工具IDE和环境

关于pycharm
关于vs2015
数据库mysql

模块三:语言工具和库

python、下次补充
C++ 待补充
opencv
tensorflow

模块四:人工智能–神经网络算法

基础

卷积神经网络详解

经典算法

人工智能-迁移学习

应用实践

人脸表情分析识别

模块五:数据结构与算法

5.1 四则运算–后缀表达式

5.2 平衡二叉树 AVL

5.3 多路查找树 B-Tree

5.4 哈夫曼树和哈夫曼编码

模块六:参考文献

[1] 图像
[2] Raw image
[3] 不同波段数字图像
[4] 数字图像处理

Guess you like

Origin blog.csdn.net/beauthy/article/details/105114240