一、介绍

多目标跟踪过程是检测和跟踪多个对象的过程。目标检测算法用于确定视频序列每帧中的目标位置，并以空间信息的形式表达出来。

Alex Bewley等人提出了SORT算法，该算法利用卡尔曼滤波器结合检测算法给出目标的当前状态信息和前一状态的预测信息，以估计目标的当前状态。然后通过并集相交（IOU）距离进行权重分配，通过匈牙利计算进行数据关联，并将检测到的结果分配给估计轨迹以解决跟踪问题。这种方法具有很高的速度和准确性。由于该方法不使用物体的任何外观特征，当物镜丢失时，物镜的ID只能由检测器更新。

为了提高跟踪器的鲁棒性，在排序算法的基础上，采用卷积神经网络（CNN）来添加目标的外观信息，基于这一特征，Nicolai Wojke等人提出了DeepSORT ，它结合了对象的外观信息，并在IOU距离匹配之前另外增加了级联匹配。与SORT算法相比，由于DeepSORT算法增加了外观信息并改进了算法的结构，因此可以减少跟踪过程中的ID切换次数，并提高跟踪的准确性和精度。

本文采用YOLO目标检测算法和DeepSORT多目标跟踪算法对人群进行实时检测和跟踪，提出通过线路碰撞计数法间接计算某处行人密度。

二、算法分析

卷积神经网络是一种单输入多层处理模型，包括用于图像输入和输出的输入层和输出层，以及卷积层、池化层和全连接层等中间处理层。卷积运算是卷积神经网络的核心组件。

卷积神经网络的结构图：

YOLO算法

YOLO算法的主要过程是将整个画面作为输入，直接返回输出层中的候选帧及其类别，使用与Faster-RCNN不同的锚帧。将要检测的图像划分为大小相等的 S×S 网格。如果生成的目标的中心落在某个网格上，则利用该网格对目标进行预测。

YOLO算法基本原理的流程图：

本文选择YOLOv4算法作为检测框架。（YOLOv5之前测试过）

目标跟踪算法

深度排序跟踪方法是一种基于卡尔曼滤波和匈牙利算法的单假设跟踪框架。（u， v， γ， h， u′， γ'， h'）的 8 个参数用于描述跟踪目标的状态信息。其中（u，v）是物镜检测帧的中心坐标，γ是物镜检测帧的纵横比，h是物镜检测帧的高度。其余参数是它们在图像坐标系中的速度。检测跟踪目标后，采用标准均速卡尔曼滤波和线性观测模型对新帧中目标的空间轨迹信息进行估计。

深度多目标跟踪算法使用成本矩阵来表示新检测与现有轨迹之间的相似性，其中成本矩阵由Mahalanobis距离和余弦距离表示。Mahalanobis 距离表示 Kalman 预测的状态与物镜新位置的测量值之间的距离，公式：

其中， (yi, Si)表示第 i 个轨迹分布到测量空间中的投影，以及dj表示第 j 个检测框。余弦距离表示外观信息的相关程度，公式：

其中，r 是外观描述符，║rj║ = 1。Ri 表示第 i 个轨道的最后 100 个对象的外观特征。每个距离都有一个阈值。当距离小于设置的阈值时，将其设置为不可能的关联。同时，每个距离所属的门控函数等于0，否则为1。成本矩阵拟合 Mahalanobis 距离和余弦距离为：

仅当 Mahalanobis 距离和余弦距离的门控函数都等于 1 时，门控矩阵 bi，j=∏m=12b（m）i，j 等于 1，表示（i， j）是空间运动和外观特征之间的有效匹配。即使 λ 等于零，关联结果仍受门控函数的 Mahalanobis 距离和余弦距离的约束。只有当关联位于两个变量的门控区域中时，才称为可接受的关联。

当新检测成功与现有轨迹关联时，使用级联匹配和交叉联合匹配将新检测与轨迹进行匹配，并将轨迹miss age设置为零。当新检测无法与现有轨迹匹配时，新检测将暂时指定为新轨迹。当不匹配的年龄超过设定的最大 age，并且目标可以在连续三帧中检测到时，新的检测被设置为新的轨迹，否则检测目标将被删除。当轨迹长时间与新检测不匹配时，轨迹将被删除。迭代循环上述过程，完成实时目标跟踪过程。