目标检测之Fast RCNN概述

基本原理

Fast Rcnn主要步骤为

  • 利用SR算法生成候选区域
  • 利用VGG16网络进行特征提取
  • 利用第一步生成的候选区域在特征图中得到对应的特征矩阵
  • 利用ROI pooling将特征矩阵缩放到相同大小并平展得到预测结果

相对于RCNN的优化

여기에 이미지 설명을 삽입하세요.
主要有三个改进

  1. 不再将每一个候选区域依次放入CNN网络中进行特征提取等一系列操作,而是采取将整张图输入网络,得到特征图。然后再利用原图中的候选区域在特征图中对应的区域进行展平,得到预测结果。
  2. 不再需要对图片进行强制缩放,而是采取利用ROI Pooling缩放到相同大小。
  3. 不再使用SVM进行分类,而是使用softmax进行代替。

优化意义
  1. 第一个优化点
    一张图片只需要通过卷积网络一次,减少了大量的运算,但是对于特征图的每一个候选区域,全连接层需要对每一个候选区域进行一次运算处理,而算法作者使用SVD进行加快处理。
  2. 第二个优点
    roi pooling可以提高训练处理速度,更好解决缩放问题。
  3. 第三个优化点
  • 将分类的损失纳入网络训练整个过程中,相对于RCNN减少了对磁盘空间的占用。
  • 全连接层有两个分支,一个用于softmax分类,另一个用于位置回归。
  • 损失函数为
    L ( p , u , t u , v ) = L c l s ( p , u ) + λ [ u ⩾ 1 ] L l o c ( t u , v ) L(p,u,t^u,v)=L_{cls}(p,u)+\lambda [u\geqslant 1]L_{loc}(t^u,v) L(p,u,tu,v)=Lcls( ,당신 )+λ [ 1 ] 10월( 당신 ,v )
    L cls(p,u) = − log(p,u) L_{cls}(p,u)=-log{(p,u)}C l s( ,당신 )=로그 ( p , _ _u ) 는 분류 손실이고, p는 예측 확률이고, u는 실제 레이블입니다.
    λ [ u ≥ 1 ] L loc ( tu , v ) \lambda[u \ge 1]L_{loc}(t^u,v)λ [ 1 ] 10월( 당신 ,v ) 는 위치 손실, v는 예측된 오프셋 및 스케일링 계수,tut^uu 는 실제 후보 프레임과 실제 프레임 사이의 오프셋 및 스케일링 계수로 RCNN과 일치합니다.
    이전 계수λ [ u ≥ 1 ] \lambda[u \ge 1]λ [ 1 ]은 후보 영역이 배경인지 객체인지를 판단하는 데 사용됩니다. 배경이면 계산되지 않고, 객체이면 회귀가 계산됩니다.
    여기서
    L loc ( tu , v ) = ∑ i ϵ { x , y , w , h } 매끄러운 L 1 ( tiu − vi ) L_{loc}(t^u,v)=\sum_{i\epsilon \{x ,y,w,h\}}부드럽다_{L_1}(t_i^u-v_i) 10월( 당신 ,v )=나는 ϵ { x , y , w , h }_ _1( -V)
    매끄러운 L 1 ( x ) = { ∣ x ∣ < 1 ∣ x ∣ − 0.5인 경우 0.5 x 2, 그렇지 않은 경우에는 smooth_{L_1}(x)=\left\{\begin{matrix}0.5x^2\ \ \ \ \ \ if\ |x|< 1\\|x|-0.5\ \ 그렇지 않으면\end{행렬}\right._ _1( x )={ 0.5x_ _2 나는fx       <1x -0.5 기타 _ _ _ _ _   _

Supongo que te gusta

Origin blog.csdn.net/qq_44116998/article/details/128425273
Recomendado
Clasificación