开源计算机视觉库OpenCV详解

1、概述

2、OpenCV详细介绍

2.1、OpenCV的起源

5、OpenCV配置以及Visual Studio使用OpenCV

6、OpenCV和OpenGL的区别

7、OpenCV与YOLO的区别

8、OpenGL与DirectX的区别

VC++常用功能开发汇总（专栏文章列表，欢迎订阅，持续更新...）https://blog.csdn.net/chenlycly/article/details/124272585 C++软件异常排查从入门到精通系列教程（专栏文章列表，欢迎订阅，持续更新...）https://blog.csdn.net/chenlycly/article/details/125529931 C++软件分析工具案例集锦（专栏文章正在更新中...）https://blog.csdn.net/chenlycly/category_12279968.html

1、概述

在计算机视觉项目的开发中，OpenCV作为最大众的开源库，拥有了丰富的常用图像处理函数库，采用C/C++语言编写，可以运行在Linux/Windows/Mac等操作系统上，能够快速的实现一些图像处理和识别的任务。此外，OpenCV还提供了java、python、cuda等的使用接口、机器学习的基础算法调用，从而使得图像处理和图像分析变得更加易于上手，让开发人员更多的精力花在算法的设计上。

本文将主要介绍OpenCV开发的一些基础知识、入门上手的方法与步骤等。

2、OpenCV详细介绍

2.1、OpenCV的起源

OpenCV诞生于Intel研究中心，其目的是为了促进CPU密集型应用。为了达到这一目的，Intel启动了多个项目，包括实时光线追踪和三维显示墙。一个在Intel工作的OpenCV作者在访问一些大学时，注意到许多顶尖大学中的研究组(如MIT媒体实验室)拥有很好的内部使用的开放计算机视觉库-- (在学生们之间互相传播的代码)，这会帮助一个新生从高的起点开始他/她的计算机视觉研究。这样一个新生可以在以前的基础上继续开始研究，而不用从底层写基本函数。

因此，OpenCV的目的是开发一个普遍可用的计算机视觉库。在Intel的性能库团队的帮助下，OpenCV实现了一些核心代码以及算法，并发给Intel俄罗斯的库团队。这就是OpenCV的诞生之地：在与软件性能库团队的合作下，它开始于Intel的研究中心，并在俄罗斯得到实现和优化。

俄罗斯团队的主要负责人是Vadim Pisarevsky，他负责管理项目、写代码并优化OpenCV的大部分代码，在OpenCV中很大一部分功劳都属于他。跟他一起，Victor Eruhimov帮助开发了早期的架构，Valery Kuriakin管理俄罗斯实验室并提供了很大的支持。在开始时，OpenCV有以下三大目标。

为基本的视觉应用提供开放且优化的源代码，以促进视觉研究的发展。能有效地避免“闭门造车”。通过提供一个通用的架构来传播视觉知识，开发者可以在这个架构上继续开展工作，所以代码应该是非常易读的且可改写。本库采用的协议不要求商业产品继续开放代码，这使得可移植的、性能被优化的代码可以自由获取，可以促进基于视觉的商业应用的发展。

这些目标说明了OpenCV的起缘。计算机视觉应用的发展会增加对快速处理器的需求。与单独销售软件相比，促进处理器的升级会为Intel带来更多收入。这也许是为什么这个开放且免费的库出现在一家硬件生产企业中，而不是在一家软件公司中。从某种程度上说，在一家硬件公司里，在软件方面会有更多创新的空间。

2.2、OpenCV开发语言

OpenCV的全称是：Open Source Computer Vision Library。OpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。

OpenCV用C++语言编写，它的主要接口也是C++语言，但是依然保留了大量的C语言接口。该库也有大量的Python, Java and MATLAB/OCTAVE (版本2.5)的接口。这些语言的API接口函数可以通过在线文档获得。如今也提供对于C#,Ch, Ruby的支持。

2.3、OpenCV的应用领域

OpenCV是一个用于图像处理、分析、机器视觉方面的开源函数库。无论你是做科学研究，还是商业应用，OpenCV都可以作为你理想的工具库，因为，对于这两者，它完全是免费的。同时，由于计算机视觉与机器学习密不可分，该库也包含了比较常用的一些机器学习算法。或许，很多人知道图像识别、机器视觉在安防领域有所应用。但很少有人知道，在航拍图片、街道图片（例如google street view）中，要严重依赖于机器视觉的摄像头标定、图像融合等技术。

近年来，在入侵检测、特定目标跟踪、目标检测、人脸检测、人脸识别、人脸跟踪等领域，OpenCV可谓大显身手，而这些，仅仅是其应用的冰山一角。如今，来自世界各地的各大公司、科研机构的研究人员，共同维护支持着OpenCV的开源库开发。这些公司和机构包括：微软，IBM，索尼、西门子、google、intel、斯坦福、MIT、CMU、剑桥。

计算机视觉市场巨大而且持续增长，且这方面没有标准API，如今的计算机视觉软件大概有以下三种：

1）研究代码（慢，不稳定，独立并与其他库不兼容）
2）耗费很高的商业化工具（比如Halcon, MATLAB+Simulink）
3）依赖硬件的一些特别的解决方案（比如视频监控，制造控制系统，医疗设备）这是如今的现状。

而标准的API将简化计算机视觉程序和解决方案的开发。OpenCV致力于成为这样的标准API。OpenCV致力于真实世界的实时应用，通过优化的C代码的编写对其执行速度带来了可观的提升，并且可以通过购买Intel的IPP高性能多媒体函数库(Integrated Performance Primitives)得到更快的处理速度（注：OpenCV 2.0版的代码已显著优化，无需IPP来提升性能，故2.0版不再提供IPP接口）。下图为OpenCV与当前其他主流视觉函数库的性能比较。

3、OpenCV模块划分

OpenCV主体分为五个模块，其中四个模块如下所示：

OpenCV的CV模块包含基本的图像处理函数和高级的计算机视觉算法。ML是机器学习库，包含一些基于统计的分类和聚类工具。HighGUI包含图像和视频输入/输出的函数。CXCore包含OpenCV的一些基本数据结构和相关函数。

目前，我们当前讨论的是OpenCV3.2.0版本。OpenCV3.0与OpenCV2.0的版本相比，他的主要改动如下：

1）大体上保留了OpenCV 2经典的C++和Python编程接口风格。其中，Python接口大大增强，也加入了Python 3.x的支持。一般来说，以前版本的程序只要做少数修改，就可以使用OpenCV 3了。另外还改善了Java接口，并且加入了MATLAB支持。
2）架构调整。图片、视频编解码从highgui模块分离出来，组成了imgcodecs和videoio。原先的OpenCL模块ocl事实上与其它模块融为一体，而CUDA加速模块gpu分解成了数个以cuda开头的模块。此外，除了官方支持的OpenCV代码，还有一些自发贡献的内容、不稳定的内容，或者版权尚存争议的内容，都放到了新的仓库opencv_contrib中。
3）更多新算法。新版本包括了TLD、鱼眼镜头模型等全新算法，还包括了一些更高层次可以直接拿来用的高级封装，比如汽车检测等。
4）引入T-API，使OpenCL加速更容易。目前可以参考OpenCV源代码中T-API的范例。可以发现，开启和关闭OpenCL加速，只需要一个语句就够了。这也就是为什么ocl模块会消失了吧。
5）更多指令集优化。除了之前为Intel CPU做的优化以外，OpenCV 3还容纳了ARM平台NEON指令集的支持。通过英特尔的帮助，OpenCV 3对x86和x64平台默认使用IPP。OpenCV3.0中部分函数得到加速的示意图如下：

4、OpenCV源码文件结构

开源库OpenCV的github地址为：https://github.com/opencv，下文以OpenCV3.0版本展开讲述。

4.1、根目录介绍

OpenCV3.0的sources文件结构如下：

1）3rdparty/，包含第三方的库，比如视频解码用的 ffmpeg，jpg、png、tiff等图片的开源解码库。
2）apps/，包含进行 haar 分类器训练的工具，opencv 进行人脸检测便是基于 haar 分类器。如果你想检测人脸以外的图片，千万不要错过这几个工具。
3）cmake/，包含生成工程项目时 cmake 的依赖文件，用于智能搜索第三方库，普通开发者不需要关心这个文件夹的内容。
4）data/，包含 opencv 库以及范例中用到的资源文件，haar 物体检测的分类器位于haarcascades子文件中。
5）doc/，包含生成文档所需的源文件以及辅助脚本。
6）include/，包含入口头文件。opencv 子文件夹中是 C 语言风格的API，也就是《Learning OpenCV （第一版）》中描述的API函数，官方将逐渐淘汰 C 风格函数，因此我不推荐大家使用该文件夹中的头文件。opencv2 子文件中只有一个 opencv.hpp 文件，这是 cv2 以及 cv3 推荐使用的头文件。
7）modules/，包含核心代码，opencv 真正的代码都在这个文件夹中。opencv 从2.0开始以模块的方式组织各种功能，近两年模块的数量增长得很快，后面我会依次介绍每个模块的作用。
8）platforms/，包含交叉编译所需的工具链以及额外的代码，交叉编译指的是在一个操作系统中编译供另一个系统使用的文件。
9）samples/，范例文件夹。

4.2、常用模块介绍

modules目录中则包含了OpenCV的主要功能模块，包含了如下的多个模块：

1）androidcamera/，仅用于android平台，使得可以通过与其他平台相同的接口来控制android设备的相机。
2）core/，核心功能模块，定义了基本的数据结构，包括最重要的 Mat 类、XML 读写、opengl三维渲染等。
3）imgproc/，全称为 image processing，即图像处理。包括图像滤波、集合图像变换、直方图计算、形状描述子等。图像处理是计算机视觉的重要工具。
4）imgcodec/，负责各种格式的图片的读写，这个模块是从以前的 highgui 中剥离的。
5）highgui/，高级图形界面及与 QT 框架的整合。
6）video/，视频分析模块。包括背景提取、光流跟踪、卡尔曼滤波等，做视频监控的读者会经常使用这个模块。
7）videoio/，负责视频文件的读写，也包括摄像头、Kinect 等的输入。
8）calib3d/，相机标定以及三维重建。相机标定用于去除相机自身缺陷导致的画面形变，还原真实的场景，确保计算的准确性。三维重建通常用在双目视觉（立体视觉），即两个标定后的摄像头观察同一个场景，通过计算两幅画面中的相关性来估算像素的深度。
9）features2d/，包含 2D 特征值检测的框架。包含各种特征值检测器及描述子，例如 FAST、MSER、OBRB、BRISK等。各类特征值拥有统一的算法接口，因此在不影响程序逻辑的情况下可以进行替换。
10）objdetect/，物体检测模块。包括haar分类器、SVM检测器及文字检测。
11）ml/，全称为 Machine Learning，即机器学习。包括统计模型、K最近邻、支持向量机、决策树、神经网络等经典的机器学习算法。
12）flann/，用于在多维空间内聚类及搜索的近似算法，做图像检索的读者对它不会陌生。
13）photo/，计算摄影学。包括图像修补、去噪、HDR成像、非真实感渲染等。如果读者想实现Photoshop的高级功能，那么这个模块必不可少。
14）stitching/，图像拼接，可用于制作全景图。
15）nonfree/，受专利保护的算法。包含SIFT和SURF，从功能上来说这两个算法属于features2d模块的，但由于它们都是受专利保护的，想在项目中可能需要专利方的许可。
16）shape/，形状匹配算法模块。用于描述形状、比较形状。
17）softcascade/，另一种物体检测算法，Soft Cascade 分类器。包含检测模块和训练模块。
18）superres/，全称为 Super Resolution，用于增强图像的分辨率。
19）videostab/，全称为 Video Stabilization，用于解决相机移动时拍摄的视频不够稳定的问题。
20）viz/，三维可视化模块。可以认为这个模块实现了一个简单的三维可视化引擎，有各种UI控件和键盘、鼠标交互方式。底层实现基于 VTK 这个第三方库。

4.3、CUDA加速模块

CUDA 是显卡制造商 NVIDIA 推出的通用计算语言，在cv3中有大量的模块已经被移植到了CUDA 语言：

1）cuda/，CUDA-加速的计算机视觉算法，包括数据结构 cuda::GpuMat、基于cuda的相机标定及三维重建等。
2）cudaarithm/，CUDA-加速的矩阵运算模块。
3）cudabgsegm/，CUDA-加速的背景分割模块，通常用于视频监控。
4）cudacodec/，CUDA-加速的视频编码与解码。
5）cudafeatures2d/，CUDA-加速的特征检测与描述模块，与features2d/模块功能类似。
6）cudafilters/，CUDA-加速的图像滤波。
7）cudaimgproc/，CUDA-加速的图像处理算法，包含直方图计算、霍夫变换等。
8）cudaoptflow/，CUDA-加速的光流检测算法。
9）cudastereo/，CUDA-加速的立体视觉匹配算法。
10）cudawarping/，实现了 CUDA-加速的快速图像变换，包括透视变换、旋转、改变尺寸等。
11）cudaev/，实现 CUDA 版本的核心功能，类似 core/ 模块中的基础算法。

5、OpenCV配置以及Visual Studio使用OpenCV

了解了OpenCV的数据结构和功能后，下面介绍OpenCV的配置，win7 64 + vs2013 + OpenCV3.0步骤。

1）下载安装opencv 3.0。下载地址：http://opencv.org/downloads.html。
2）配置环境变量：计算机属性->高级系统设置->环境变量->Path->变量值：

3）配置VS2013。首先打开VS2013建立一个Win32控制台项目。然后，在“项目->工程属性->VC++目录”中，加入包含目录
..\opencv\build\include; ..\opencv\build\include\opencv;
..\opencv\build\include\opencv2。(..代表OpenCV安装的文件夹目录)

加入库目录..\opencv\build\x64\vc12\lib。“项目->工程属性->链接器->输入->附加依赖”中添加附加依赖项：
opencv_ts300d.lib；opencv_world300d.lib：

配置完成后，就可以在vs2013中使用opencv3.0中的函数了。

经过以上的基础知识介绍后，就可以进行入门的实践了。在上面配置完成的工程中，来显示一幅图片，验证一下是否成功。在解决方案资源管理器中，打开源文件main.cpp(没有可以自己创6、建)，添加以下代码

#include<opencv2\opencv.hpp>
using namespace cv;
int main()
{
    Mat src = imread("lena.jpg"); //图片必须添加到工程目录下
    imshow("src ", src);
    waitKey();
}

然后点击本地Windows调试器，或者按F5运行程序，成功后显示图像。

6、OpenCV和OpenGL的区别

OpenCV和OpenGL都是用来处理图像和视频的，但两者有很大的区别。

OpenCV是一个开源计算机视觉库，用于图像和视频处理、分析和识别。它提供了各种算法和工具，如图像处理、特征检测、目标跟踪、人脸识别等，可以在计算机视觉应用中使用。

OpenGL是一个开源图形库，用于创建3D图形和动画。它提供了各种功能和工具，如渲染、光照、纹理映射等，它可以帮助开发人员实现高效的图形渲染和动画效果，可以与许多编程语言搭配使用，如C++、Java等。它应用于游戏、虚拟现实、建筑等多个领域。此外，OpenGL还提供了一个专用于嵌入式领域的OpenGL ES (OpenGL for Embedded Systems)，是 OpenGL 三维图形 API 的子集，主要针对手机、PAD和游戏主机等嵌入式设备而设计。

虽然OpenCV和OpenGL都可以用于图像处理和计算机视觉应用，但它们的定位和应用场景不同。OpenCV主要用于图像和视频的处理分析，而OpenGL则主要用于3D图形和动画的创建与渲染。

7、OpenCV与YOLO的区别

OpenCV和YOLO都是计算机视觉领域的工具库，但它们的作用和使用方式有所不同。

OpenCV是一个开源的计算机视觉库，提供了各种各样的图像处理和计算机视觉算法，如图像读取、图像处理、图像滤波、图像分割、边缘检测、特征提取、目标检测与跟踪、人脸识别等。OpenCV可以用于图像处理、视频处理、机器人视觉、自动驾驶等多个领域。

YOLO（You Only Look Once）是一个基于深度学习的开源目标检测算法。相比传统的目标检测算法，YOLO可以实现更快的检测速度，在保持较高的准确率的同时，可以实现实时检测。YOLO采用单个神经网络来同时预测图像中所有物体的类别和位置，可以处理多种尺度和多个物体。YOLO可以用于智能监控、自动驾驶、机器人视觉等领域。

因此，OpenCV和YOLO都是计算机视觉领域的工具，它们的应用场景和目标有所不同。OpenCV更加通用，可以用于各种图像处理和计算机视觉应用，而YOLO则更加专注于目标检测领域，可以实现实时目标检测，检测效率要高一些。

8、OpenGL与DirectX的区别

说到OpenCV和OpenGL的区别，我们也来顺便说说OpenGL与DirectX的区别。

OpenGL和DirectX都是用于渲染3D图形的API，但它们有较大的区别，如下：

1）平台支持：OpenGL是跨平台的API，可以在几乎任何操作系统上运行，而DirectX只能在Windows操作系统上运行。

2）API设计理念：OpenGL的设计理念是简单易用，允许开发人员自由选择和使用不同的实现。而DirectX更注重提供完整的解决方案，包含不同的组件，如Direct3D、Direct2D、DirectCompute等。

3）软硬件实现：OpenGL可以使用多种实现方式，包括软件实现和硬件加速实现。而DirectX只能使用硬件加速实现，因为它是针对Windows操作系统和硬件设计的。

4）开发语言：OpenGL是用C语言编写的API，对于初学者和非专业开发人员来说，学习和使用OpenGL比较困难。而DirectX是用C++编写的API，更易于学习和使用。

5）社区支持：OpenGL有一个活跃的社区，提供了大量的教程、资料和开源项目，使开发人员更容易入门。而DirectX的社区相对较小，因为它是专为Windows平台设计的。

总的来说，OpenGL和DirectX都有各自的优缺点，在选择使用哪个API时，需要考虑到项目需求、开发成本、平台支持等因素。以多媒体SDL库为例，我们经常使用该库在软件中绘制视频图像，当用在Windows平台上时SDL内部使用DirectX绘图，当用在Linux平台上时SDL内部则使用OpenGL绘图。