[例]論文がBlendMask分割されています。インスタンスのセグメンテーションのためのトップダウンミーツボトムアップ

ディレクトリ

EDITORIAL

背景

トップダウン方式

ボトムアップ法 

ハイブリッドアプローチ

概念

ボトムモジュール

上層

ブレンダー

実験結果

パラメータ設定

精度

スピード

視覚効果

切除

1.融合

2.特徴分解能(R)

3.塩基数(K)

前記入力特徴源(P3 + P5またはC3 + C5)

補間法

参照


论文名称:「BlendMask:トップダウンのインスタンスセグメンテーションのためのボトムアップの出会い」

論文は、リンクします。https://arxiv.org/abs/2001.00309

参照コード:いいえ

EDITORIAL

トップダウンとボトムアップの方法のアイデアを組み合わせた集中的なセグメンテーション方式の位相のBlendMask例。また、低レベルのボトムモジュールの特徴点の抽出、およびインスタンスレベルでの予測注意FCOSモデルの増加を検出することにより、アンカーを含まない基準; [シス融合ドローとYOLACT著者はよりよいブレンダーモジュールを提案これらの2つの機能を統合。最後に、(1080tiにBlendMask-RT 34.2mAP、25FPS)COCO(41.3AP)及び速度にBlendMask精度は、マスクR-CNNを超えています。〜アイデア最適化モデルも学習、賞賛の価値がある、この記事の技術革新は、優れたと考えることはできませんが、実験は非常に適切でありませんでした

背景

この記事は、に焦点を当てて緻密インスタンススプリット(高密度インスタンスセグメンテーション)、集中分割はまた、トップダウンおよびボトムアップの二つの方法の例を持っています。

トップダウン方式

集中的なトップダウン分割血統の例としてはDeepMaskは、スライディングウィンドウ法それによって、各空間領域にマスク提案が予測されます。この方法の欠点は、以下の3つがあります。

  • コンタクトマスク機能(部分的コヒーレンスが DeepMaskが完全に接続されたネットワーク・マスクを抽出するために使用されるように)、失われます

  • 特徴抽出表現は冗長 DeepMask各見通しの意志機能のマスクを抽出するように、

  • ダウンサンプリング(畳み込みに使用されるステップサイズ1)による位置情報が失われ

ボトムアップ法 

例汎用ルーチン密なボトムアップのセグメンテーション法はピクセル単位の埋め込みを生成し、次いで、クラスタリング及びそれらの後処理法に等のパケット分類を用いることを特徴とします。この方法は、より良好なままであるが、低レベルの機能(詳細情報及び位置情報)だけでなく、以下の欠点を。

  • 高集約型のセグメンテーションの品質要件についてになります非最適セグメンテーション

  • 汎化能力はクラスや、より複雑なシーンに対応するために、貧しいができません

  • 後処理方法の面倒

ハイブリッドアプローチ

本明細書に融合された画素毎の予測を生成するための希望のトップダウンおよびボトムアップの二つのアプローチ、生成するためのインスタンス・レベルのトップダウン方式の高次元情報の使用(例えばBBOX)、ボトムアップ方式を組み込みました。したがって、この単純なアルゴリズムはFCOSネットワークBlendMaskに基づいて提案されています。アイデアの参照[シス融合(切断)とYOLACT(重み付け加算)は、より良好な融合が可能なブレンダーモジュールは、グローバル情報を含み、インスタンス・レベルの位置情報の低レベルの特徴と詳細を提供する提案しました。

概念

BlendMask全体的な構造を以下に示すと、検出器モジュールBlendMaskモジュールを含みます。直接三つの部分によってFCOS、BlendMaskモジュール本明細書で使用される検出器モジュール:底Module1のは、基礎となる機能を処理するために使用される、得られたスコアマップをいうベースにトップレイヤーボックスヘッド検出器と直列に、対応する塩基を生成しますトップレベルの 注意 ;そして最後にブレンダーベースと融合の注目します。

BlendMaskネットワーク構造

ボトムモジュール

[シスYOLACTように、この構造の一部と、入力  N \回K \回\ FRAC {H} {S} \回\ FRAC {W} {S} の低レベルは、バックボーンネットワークまたはFPN出力によって特徴。デコードのシリーズ(コンボリューションとサンプリング)を介して、ベース(B)と呼ばれるスコアマップを生成します。本明細書で使用される他のデコーダネットワークが等しく適用分け、DeeplabV3 +デコーダです。

Nは、バッチサイズであり、Kは、ベース、Hの数であり、Wは、入力画像のサイズであり、sはBaseが出力ステップです。

ネットワーク構造Deeplab V3 +
 

上層

トップレベルの注目(A)を予測するために使用される畳み込みの層を追加したピラミッドの各レベルの端部を検出します。ここでは、同様のYOLACT、彼らは異なります。

  • YOLACTでは、出力されN \回K \回H_ {L} \回W、すなわち、元のマスクcofficient呼ばれるチャネルの各塩基の重み値。

  • 本文输出的A的维度是 N \倍(K \ CDOT M \ CDOT M)\回H_ {L} \回W_ {L},这里M \回M为attention 的分辨率,即对应的base的每个像素点的权重值,包含的粒度更细。

由于top-level attention是三维的,因此可以学习到一些instance-level的信息,例如大致的形状和姿态。具体的实现为output channel为K \ CDOT M \ CDOT M的卷积。

Blender

Blender模块是文章的创新部分,该部分的混合过程具体解释如下:

  • 首先明确Blender模块的输入,分别为:

  1. detector tower 生成的bbox proposal(P),维度为(K×H'×W');此外,在训练的时候,直接使用GT bbox作为P,而在推理时,则使用检测器的检测结果。

  2. top layer 生成的top-level attention(a),维度为(K×M×M)

  3. bottom module 生成的base(B),是整图大小的k个mask,维度为(K×H×W)

  • 对B:使用Mask R-CNN中的RoIPooler(即sampling ratio 为1 的 RoIAlign,Mask R-CNN中为4),在 B 上crop出 P 对应的区域的mask,并resize到固定R×R大小的特征图 ,最后得到的 持つR_d 的维度为(K×R×R);

  • 对A:这一步其实是top layer中的后处理操作,放在这里来讲。作者根据FCOS中的后处理方法,选出前D个检测框和对应的A,并通过RoIAlign (sampling ratio=1) 和 reshape,将A的维度由(K*M*M, H‘, W')调整为(K×M×M),记为a

  • 对a:由于M一般小于R,做一个插值,将 A 从 M×M 插成 R×R 大小,得到的 a_d ^ {} 维度为(K×R×R)

  • 再在K维度上做softmax,得到一系列的scores map,S_D ^ {} 的维度同样为(K×R×R)

  • 融合:这时的 S_D ^ {} 和 持つR_d 都是 (K×R×R) 的大小,可以直接做element-wise product:把k个bbox大小的mask和对应的attention乘起来,再按通道叠加起来,得到最终的mask

融合过程示例

 

实验结果

参数设置

BlendMask的超参数共有以下几个:

  • R,bottom-level RoI的分辨率,论文中的设置为56

  • M,top-level prediction(A)的分辨率,一般比R小得多,论文中的设置为7

  • K,base的数量,论文中的设置为4

  • bottom module的输入特征,来自骨干网络 (C3,C5)or FPN(P3, P5),论文中使用P3,P5

  • bottom bases的采样方法,最近邻池化 or 双线性池化,论文中采用 双线性池化

  • top-level attention的插值方法,最近邻插值法 or 双线性插值,论文中采用双线性插值

这些超参数在后面都会做消融实验,为了与其他模型做合理对比,在消融实验中使用的BlendMask设置如下:R_K_M分别为28, 4, 4;bottom module的输入特征采用来自骨干网络C3和C5;top-level attention使用的是最近邻插值法,与FCIS一致;Bottom level使用双线性池化,与RoIAlign一致。

精度

先来看总体的实验结果。在COCO数据集上,BlendMask的精度和速度超越了其他单阶段实例模型,并且也基本超越了Mask R-CNN(R-50, no aug情况下除外)。

COCO-test 实验结果

速度

作者同时也设置了一个快速版的BlendMask-RT,用以对比速度。快速版的改动如下:

  • prediction head的卷积数量减为3

  • 使用YOLACT中的Proto-FPN作为bottom module,将box tower和classification tower合并为一个(这里存疑)

从结果来看,BlendMask-RT比YOLACT在单张1080Ti上快了7ms,高出3.3AP

可视化效果

从可视化效果来看,BlendMask的效果明显好于Mask R-CNN,原因是BlendMask采用了更高的分辨率(56 vs 28);相比YOLACT,BlendMask使用到了多次的信息融合,因此对重叠的实例分割效果更好。具体原文中有很详细的分析

消融实验

从前面的分析可以看出,BlendMask其实是多个模型的优点的融合,因此作者也做了大量的消融实验,来证明所选取的BlendMask结构的优越性。

1. 融合方法

著者は、ブレンダーに変換され、融合YOLACT [シスアルゴリズムの実験が優れていることが実験結果、ブレンダー融合法から見ることができます。

さらに、中間処理を視覚化することによって、著者はBlendMaskは、2つのローカルな情報を符号化することができるが見つかりました、1枚の意味マスク、ピクセルがオブジェクトに属しているか否かを判断する。第2の位置敏感feaures、オブジェクト上の画素どこか否かを判定する。

以下、YOLACT場所よりも効率的でより良い別重複インスタンスを助けることができる別の特徴に敏感4つの塩基位置から抽出し、そしてセマ​​ンティックマスクは、より正確な予測結果を可能にし滑らか。したがって、BlendMaskは少ないベース上の理由から、より豊富な特徴表現で学んだこと

見出し

 

2.特徴分解能(R)

3.塩基数(K)

前記入力特徴源(P3 + P5またはC3 + C5)

補間法

参照

論文エクスプレス|インスタンスセグメンテーションアルゴリズムBlendMask、リアルタイムかつ最先端の

BlendMask:トップダウンがInstanceSegためのボトムアップに適合

 

公開された11元の記事 ウォンの賞賛4 ビュー543

おすすめ

転載: blog.csdn.net/sanshibayuan/article/details/104011910