Tabla de contenido
1. Algoritmo clásico y etapa (Stage)
2. Verdad fundamental, predicción y pagaré
3. Precisión y recuperación
4. Confianza y Umbral de Confianza
5. AP (Precisión promedio), mAP (Precisión promedio promedio), interpolación de todos los puntos (Interpolación realizada en todos los puntos) y AUC (Área bajo la curva)
6. YOLO V1
Siete, supresión no máxima (Supresión no máxima)
8. YOLO V2
Documento de referencia
1. Algoritmo clásico y etapa (Stage)
Dos etapas (dos etapas): Máscara R-CNN más rápida R-CNN
Características: velocidad relativamente lenta, buen efecto, no apto para detección en tiempo real
Una etapa (etapa única): YOLO
Características: velocidad rápida, efecto relativamente pobre, adecuado para detección en tiempo real
2. Verdad fundamental, predicción y pagaré
3. Precisión y recuperación
Ejemplo: en el dimensionado de tecnología general, es necesario garantizar tanto la precisión (sin marcas incorrectas, marcas múltiples) como la tasa de recuperación (sin marcas faltantes)
4. Confianza y Umbral de Confianza
Confianza > umbral de confianza, se marca como muestra positiva, en caso contrario se marca como muestra negativa
Cuanto mayor sea el umbral de confianza, menor será el recuerdo y mayor la precisión; cuanto menor sea el umbral de confianza, mayor será el recuerdo y menor la precisión
5. AP (Precisión promedio), mAP (Precisión promedio promedio), interpolación de todos los puntos (Interpolación realizada en todos los puntos) y AUC (Área bajo la curva)
Ajuste el umbral de confianza y dibuje el diagrama PR (incluida la línea punteada roja) de todos los métodos de interpolación de puntos, como se muestra en la figura de la izquierda a continuación.
Método de cálculo AP: AUC,
Como se muestra en la figura superior derecha,
6. YOLO V1
Red de arquitectura
Imagen de entrada 448x448x3: C3, H448, W448
Datos de salida 7x7x30 (5x2 (2 es el número de cuadros delimitadores contenidos en cada celda de la cuadrícula) + 20): GridX (1~7), GridY (1~7), (x1 (0~1), y1 (0~1 ), w1, h1, Confianza1, x2 (0~1), y2 (0~1), w2, h2, Confianza2, p(1), p(2),...,p(n=20)(n número de clases para el conjunto de datos))
输出数据量计算公式(SxS:网格单元数量,B:每个网格单元含有的边界框数量,5:归一化后的每个网格单元内的边界框横、纵坐标+边界框宽度、高度+边界框置信度,C:数据集分类数量):
损失函数
位置误差
置信度误差
Lamda(noobj)=0.5:由于背景在图像中占比较大,故减小负样本(背景)影响,使正样本易于检测
分类误差
MSE(均方差)与CEE(交叉熵):MSE适用于线性回归预测数值,即回归问题模型;CEE适用于逻辑回归测概率,即分类问题模型
此处应选择交叉熵作为损失函数
评价
优点:简单快速
缺点:每个grid cell仅预测一个类,多类重叠问题无法解决;小目标检测效果一般;当同一类出现的不常见的长宽比和其他情况时泛化能力偏弱
七、非极大值抑制(Non-maximum Suppression)
八、YOLO V2
提升概览
加入批归一化
提高分辨率
输入大小
V2为什么可以使用不同大小的输入:去掉了全连接层,解放了大小限制
网络结构
输入大小
为什么实际输入为416*416而不是448*448:416=13*32,我们期望输入大小(416)为13的奇数倍,使数据具有实际中心点
为什么网格单元数量由V1的7*7变为13*13:每个网格单元box数量有限,增加了网格单元数量从而增加了box数量
Darkent类型:Darknet-19,含有19个卷积层
3x3卷积:参考了VGG,参数较少,感受野较大
1x1卷积:效果与3x3相近,但节省了大量参数(偷工减料)
聚类提取先验框
先验框比例
如何确定先验框比例:利用数据集的标注信息,采用K-means划分先验框比例,k=5即分为五类
为什么k=5:Avg IOU较大,Clusters较小
距离的定义
为什么不用欧氏距离:防止误差随先验框大小变化而产生明显变化
Reference Paper:You Only Look Once: Unified, Real-Time Object Detection