软件杯_视频全量目标分析和建模_初步分析

//需求分析:
视频图像语义分割;
对街景或高楼的高清视频进行目标检测和语义分割;对每帧的每个点的类别预测;
相比于基于现有的方案进行简单的调参,更鼓励参赛者提出创新的深度学习算法模型解决方案;


//知识储备--目标检测:
目标检测主要有两个不同的思路。一种思路是借鉴语义分割的做法,这方面的工作主要有YOLO和SSD。另一种思路是把目标检测看作分类任务(bounding box里的对象的类别)和回归任务(bounding box的坐标)的组合,主要工作由R-CNN, SPP-Net, Fast R-CNN, Faster R-CNN。总的来说,思路一速度更高,精度稍差,主要用在实时性要求高的场合;思路二速度稍慢,精度更高,是主流方法。(https://www.pianshen.com/article/521528377/)

//Faster R-CNN:
该算法用一个快速神经网络代替了运算速度很慢的选择性搜索算法 :通过插入区域提议网络( RPN ),来预测来自特征的建议。 RPN 决定查 看“哪里”,这样可以减少整个推理过程的计算量。 
RPN 快速且高效地扫描每一个位置,来评估在给定的区域内是否需 要作进一步处理,其实现方式如下:通过输出 k 个边界框建议,每个边界框建 议都有 2 个值——代表每个位置包含目标对象和不包含目标对象的概率。


//语义分割
从原理上来说,语义分割就是像素级别的分类,传统的方法也是直接按照这个思路来做的,效率比较低,而从FCN开始,语义分割有了相对比较专用的方法。
0. 重要的数据集:PASCAL VOC和COCO

全卷积网络( FCN ),它提出了端到端的卷积神经网络体系结构,在没有任何全连接层的情况下进行密集预测。
这种方法允许针对任何尺寸的图像生成分割映射,并且比块分类算法快得多,几乎后续所有的语义分割算法都采用了这种范式。

//实例分割
实例分割将不同类型的实例进行分类,比如用 5 种不同颜色来标记 5 辆汽车。

猜你喜欢

转载自www.cnblogs.com/janeszj/p/12806532.html
今日推荐