让计算机看懂世界，【计算机视觉】强力科普 - 代码天地

让计算机看懂世界，【计算机视觉】强力科普

其他 2019-04-12 11:11:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_36105362/article/details/85346198

这是 阿拉灯神丁Vicky 的第 014 篇文章

计算机视觉是一门研究让机器看见世界的学科，就是让摄像头与电脑结合成为计算机的视觉系统，对目标物体进行识别、追踪、与推理。

计算机视觉技术主要帮助计算机从一系列图像中感知、识别和理解有用信息。其应用领域非常广泛，包括但不限于人脸识别、图详检索、安防监控、生物识别、智能汽车等。

首先，来看一下人眼的视觉过程，视觉从发光源开始，光的模式通过场景的物体反射进入视觉感受器官的左右眼睛并同时作用于视网膜上引起视觉感觉。

图片来源于网络

视网膜是含有光感受器官和神经阻滞网络的薄膜，光刺激在视网膜上经神经处理产生的神经冲动沿视神经纤维传出眼睛，通过视觉神经传出大脑皮层进行处理并最终引起知觉，或者说在大脑中刺激对光刺激产生影响，形成关于场景的表象，大脑皮层要完成一系列处理工作，从图像存储直到根据图像做出响应。

图片来源于网络：计算机视觉整体框架

在计算机视觉种主要研究的三维场景中的对象，包括人、物、环境三大块，针对三维场景中的三维信息（几何、表现、行为）处理可分为3个研究方向：

第一：获取&建模：有效的从现实世界获取三维信息，构建、编辑和处理不同的三维信息在计算机中的表达与理解，既包含物体的三维信息的几何建模与处理，也包含材质，关照、人体建模与动作捕捉等等。

第二：理解&认知：识别、分析、抽取三维信息中对应的语义与结构信息。包括图形学、机器视觉等方向，如三维物体识别、图像检索、场景识别、姿态识别、人脸识别等等

第三：模拟&交互：处理与模拟不同三维对象之间的相互作用和交互过程，包含流体模拟、物理仿真、图像绘制、人体动画、人脸动画等

图片来源：微软亚洲研究院

计算机视觉主要有两种研究方式：

1、仿生学方式：以人类视觉系统原理为模型，构建各个模块完成类似的功能和工作。

2、工程学方式：也是以人类视觉系统原理为模型，但并不是模仿人类视觉系统，仅考虑系统的输入输出，系统内部以现有的任何可行的手段实现系统功能。

先用简单易懂的方式讲述计算机视觉的构建步骤：

1、图像分类

根据现实世界对物体界定，将图像中的反应不同特征、不同类目的物体分解出来的图像处理方法。如下图，计算机视觉会对场景中的物体进行区分。要想让计算机识别图像中的物体，我们就要教会他如何去辨别，现在对于计算机视觉的训练完全依赖于数据驱动，为其提供大量人为标注图像样本，作为训练集让机器学习。

图像分类的具体实操过程可分为：

1、输入训练集，包含N个图像，用K个不同的类别对头像进行标注；

2、用训练集对分类器进行分类；

3、让分类器预测测试集来评估分类器效果；

图片来源于网络

2、目标检测

目标检测也叫目标提取，对复杂场景中的多个目标进行处理，提取识别并进行图像分割。通常涉及目标的编辑框与标签的输出，例如对下图中饮料、餐具与菜品的检测，必须使用边界框对图像中的所有物品进行界定以及名称标注。

图片来源于网络

3、目标追踪

根据给定的初始图像或视频初始帧的目标大小和位置，预测或追踪该目标的大小和位置。目标追踪有着广泛的应用如：视频监控、人机交互、无人驾驶等。

图片来源于网络

目标追踪的实操步骤可分为：

1、初始化目标框；

2、在下一帧中产生众多候选框，提取这些候选框的特征；

3、对候选框评分；

4、找到评分最高的候选框作为预测目标，并对多个预测值融合找到更优的预测目标；

根据上面的额实操步骤，把目标追踪划分为5项主要的研究内容：

1、运动模型：如何产生众多的候选样本；

2、特征提取：如何利用何种特征找到目标；

3、观测模型：如何为候选样本进行评分；

4、模型更新：如何更新观测模型使其适应目标的变化；

5、集成方法：如何融合多个决策样本获得一个更优的决策结果；

4、语义分割

在语义理解上对图像中每个像素进行分割，然后对其进行标记分类。语义分割分为标准语义分割和实例感知语义分割，标准语义分割也称全像素语义分割是将每个像素分类为属于对象类的过程，实例感知语义分割是标准语义分割或全像素语义分割的子类型，它将每个像素分类为属于对象类及该类的实体。

图片来源于网络

语义分割试图在语义上理解图像中每个像素的作用，上图中，除了要识别道路、汽车、房屋、路灯之外，还要描绘每个物体的边界。

5、实例分割

可以说实例分割是物体检测和语义分割的结合体，相对于物体检测其可以精确到物体的边缘；相对于语义分割其可以标注图上的同一类别中的不同个体。

图片来源于网络

6、图像描述

图像描述是将自然语言处理与计算机视觉的结合体，生成最适合当前图像的文字描述。

图片来源于网络

再来梳理一下机器视觉相邻领域的关系

计算机视觉主要研究三维场景的重建，主要针对场景图像上的内容；

图像处理研究的是二维图像的转化，主要是像素级上的操作，例如提高图像的对比度、边缘提取、去噪声、几何变换及图像旋转，这些主要是图像的处理与图像的上的内容关系不大；

机器视觉主要指工业领域的视觉研究，例如机器人的视觉，常用于检测和研究。通过机器视觉与控制论处理紧密结合来实现机器人的控制和各种实时操作。

模式识别是使用各种方法从信号中提取信息，在图像识别领域主要是从图像中提取信息。

计算机视觉是一项综合技术，包括图像处理技术、机械工程技术、控制技术、光源照明技术、光学成像技术、传感器技术、数字&模拟视频技术、计算机硬件技术、人机硬件结构技术等等，这些技术的相互协调、才能构成一个完整的计算机视觉系统。

截止目前还没有，还不能在任意环境中识别任意物体，现有技术能很好的解决特定的目标领域的识别，比如简单的图像识别、人脸识别、印刷、手写文件识别、车辆识别，并需要在特定的环境中，具有指定的光照、背景和目标姿态要求的状态下。

猜你喜欢

转载自blog.csdn.net/weixin_36105362/article/details/85346198

让计算机看懂世界，【计算机视觉】强力科普

计算机科普

计算机视觉

计算机视觉~~~

一文看懂计算机视觉：计算机视觉行业研究报告

跟着我学 AI丨让计算机看懂世界

计算机视觉会议计算机视觉刊物

【计算机视觉】几个计算机视觉库

计算机视觉（一）

计算机视觉整理

计算机视觉必修

计算机视觉大神

李群&计算机视觉

计算机视觉入门

计算机视觉之路

计算机视觉---SceneFlowNet

计算机视觉概述

计算机视觉任务

计算机视觉（五）

计算机视觉（四）

计算机视觉（三）

计算机视觉（二）

计算机视觉面试

计算机视觉（六）

计算机视觉（七）

计算机视觉基础

计算机视觉引论

计算机视觉框架

计算机视觉大牛

FME 计算机视觉

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)