计算机视觉常识(研究方向简介、需要的知识储备)

 

计算机视觉的一些常识

 

1、计算机视觉的主要研究领域

计算机视觉领域包括的主要领域有图像分割(图像信息预处理)、三维重建和模式识别(包括对静态、动态物体的识别与理解)。

(1)图像分割:图像分割是图像识别和计算机视觉至关重要的预处理。没有正确的分割就不可能有正确的识别。但是,进行分割仅有的依据是图像中像素的亮度及颜色,由计算机自动处理分割时,将会遇到各种困难。例如,光照不均匀、噪声的影响、图像中存在不清晰的部分,以及阴影等,常常发生分割错误。因此图像分割是需要进一步研究的技术。

(2)三维重建(场景重建):是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。

(3)模式识别:模式识别(英语:Pattern Recognition),又称图形识别,就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。模式识别中的预处理和特征抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术

 

        计算机视觉具体研究方向包括但不限于:场景重建;视频跟踪、目标追踪、目标物识别、图像分类、目标检测、文字识别、图像检索;图像恢复、图像滤波与降噪、图像增强、风格迁移;GAN。

       从技术角度计算机视觉也有如下的方向划分:图像分类、视频分类、目标物定位、图像内目标物分割、视频内目标物分割、目标追踪、行为识别、行为定位、姿态估计。

扫描二维码关注公众号,回复: 10548569 查看本文章

关于计算机视觉研究方向的应用的方法也分为两个方向:基于深度学习的和基于几何方法的传统方法

        基于深度学习的应用包括:文字识别、图像识别、人脸识别、视频内容理解、医疗影像诊断、神经网络芯片、驾驶辅助等。         基于几何方法的应用:虚拟现实、增强现实、三维重建、机器人、无人机、无人驾驶等。

2、关于识别的现状和问题

        一个计算机视觉,图像处理和机器视觉所共有的经典问题便是判定一组图像数据中是否包含某个特定的物体,图像特征或运动状态。这一问题通常可以通过机器自动解决,但是到目前为止,还没有某个单一的方法能够广泛的对各种情况进行判定:在任意环境中识别任意物体。现有技术能够也只能够很好地解决特定目标的识别,比如简单几何图形识别,人脸识别,印刷或手写文件识别或者车辆识别。而且这些识别需要在特定的环境中,具有指定的光照,背景和目标姿态要求

       广义的识别在不同的场合又演化成了几个略有差异的概念:

       识别(狭义的):对一个或多个经过预先定义或学习的物体或物类进行辨识,通常在辨识过程中还要提供他们的二维位置或三维姿态。

       鉴别:识别辨认单一物体本身。例如:某一人脸的识别,某一指纹的识别。

       监测:从图像中发现特定的情况内容。例如:医学中对细胞或组织不正常技能的发现,交通监视仪器对过往车辆的发现。监测往往是通过简单的图象处理发现图像中的特殊区域,为后继更复杂的操作提供起点。

       识别的几个具体应用方向:

基于内容的图像提取:在巨大的图像集合中寻找包含指定内容的所有图片。被指定的内容可以是多种形式,比如一个红色的大致是圆形的图案,或者一辆自行车。在这里对后一种内容的寻找显然要比前一种更复杂,因为前一种描述的是一个低级直观的视觉特征,而后者则涉及一个抽象概念(也可以说是高级的视觉特征),即‘自行车’,显然的一点就是自行车的外观并不是固定的。

姿态评估:对某一物体相对于摄像机的位置或者方向的评估。例如:对机器臂姿态和位置的评估。

3、计算机视觉需要的专业基础理论知识(不局限于下面的内容)

1深度学习(AE\VAE\RBM\DBN\CNN\RNN\GAN);

2机器学习常用基本算法决策树、朴素贝叶斯分类器、聚类、支持向量机、线性回归、Logistic 回归、K近邻算法、集成学习等

3概率图(贝叶斯有向图、马尔可夫无向图);

4最优化理论(最小二乘、线性规划、非线性规划、凸优化);

发布了5 篇原创文章 · 获赞 0 · 访问量 119

猜你喜欢

转载自blog.csdn.net/qq_37705280/article/details/105351868