視覚的注意モデルRARE2012:紙を読んで退屈

リッシュ、N.、Mancas、M.、Duvinage、M.、Mibulumukini、M.、Gosselin、B.、&デュトワ、T.(2013)。RARE2012:その比較統計解析とマルチスケール希少基づく顕著性検出。 信号処理:画像通信、  28 (6)、642から658まで。 https://doi.org/10.1016/j.image.2013.03.009
 
昔、ずっと以前の記事も、今日、特に私が次の読み、そのメソッドを使用して記事を参照してください。
視覚的注意のメカニズム我々が興味を持っているこの事、そして、それがそれに便利であるためです。例えば、ヘルプ最適化、ユーザーが対話的なボタンがより快適に使用できるようにマンマシンインタフェース、;広告デザイン評価、動画像データの圧縮、画像情報の保存に、より興味を持って集中。ロボットの視覚とそれに。
人間の視覚的注意の一般的な定義では、私がこの記事では、何の低下はありません公開された時点で、とにかく、起こっているかを理解するために、生物学には何の研究が存在しないかわかりません。しかし、一般的に言えば、人間の注意は自然な能力の中に一部入ってくる刺激と選択的注意を優先として定義することができますOK、また大丈夫予備的な定義があります。あなたがたはその上で視覚的注意を行うことを、脳は映像信号がそのようであることをちょうどソートシグナル配列のない受信します。
コンピュータビジョンでは、注意機構のほとんどの探査がコンセプトの「注目度がマッピングさ」に依存して、文字通り「顕著性マップ」を意味します。簡単に言えば、入力信号がいずれかのモデルが作られているのマッピングのマッピング結果は、モデルがそれに応じて強い信号を得るために、より重要になるだろうということです「注目度がマッピングさ」。
だから、視覚的注意機構が懸念されるため、入力画像であり、人間の目は場所に引き付けられることは、より重要なシグナルです。それでは、より良い「顕著性マップ」を見つけたい、視覚的注意のメカニズムを説明します。それはすぐに私たちの視覚システムにおけるこれらの場所は非常に魅力的で、私たちに入力された画像を教えてください。
この考え方によれば、2つのメカニズムが含まれている中で、「突極性をマッピングします」。一つは、また、刺激駆動型または外部の注意として知られているボトムアップの注意、です。特定の知識(タスクビューアを統合し、タスク駆動型の内因性または注意として知られている別のトップダウンでは、特定の場合、シーンのモデルタイプを持っていること、などは、オブジェクトを識別することができます)。純粋にボトムアップRARE2012、ボトムアップ方式の優れたパフォーマンスので。入力された画像情報に完全に依存している、あなたはもちろん、意思決定のための他のメカニズムを考慮する必要があり、より良いパフォーマンススパイシーません。
記事は、年間彼らのアプローチは非常に良好であるという結論に人気のあるいくつかの方法を比較します。ハッハッハ
彼らの方法:
-------------------------------------------------- -----------------------------------------
第一段階アルゴリズム:
最初のステップ:最初のPCAの方法主成分分析は、画像を3チャンネルRGBの3次独立空間にマッピングされます。三つのチャネルに分割され、これら三つのチャネル、channal1は主に輝度情報、およびchannal3 channal2を含有する色度情報が含まれています。しかし、情報の3つのチャネルが独立しています。これは、HSVは、明るさ、色相と彩度で、少し3つのチャンネルまあHSVのように見えます。しかし、私はああ、ソースに依存して、特定の分解を知っていないもの、記事は言いませんでした。
第二段階:直接三つのチャネルの画像のPCAの希少性の計算。ねえ、まだここに降りるために、ソースコードを見て、画像寸法主成分分析を持っている私は、PCA法を用いたトップスプリットチャンネルはエディタが行うあることを理解することができますか?ノーので、それを3つの希少分布を何、問題では。で抽出された画像であり、そう低い色特徴、もちろん、輝度分布特性を有しています。
第三段階:その後、方向及びガボールフィルタを用いた図チャネル画像における上記3つの特徴を抽出します。ガボールフィルタは、脳のプロセスの単純な視覚皮質の神経(V1)と同様であるので、ガボールが選択されます。
ガボールは次のように定義されています。 
ガボール単純型細胞の視覚刺激に応答して、人間の視覚システムは非常に似ています。これは、ローカル空間および周波数領域情報抽出されたオブジェクトの面で優れた特性を有しています。ガボールスケールの良好な指向特性選択及び選択を提供することができるエッジ画像、および非感受性照明変化に敏感ウェーブレット、良好な照明変化適応を提供することができます。
対応する記述することができ、したがって、空間及び周波数ドメインの局在化しながらDガボールフィルタは、最適な特性を得る有するガボール関数によって形成される空間周波数(スケール)、空間的な位置及び姿勢の選択ローカル構成情報を。ガボールの画像を抽出するために使用される空間的な向き及びテクスチャー特性
それぞれガボールの物品入力8つの方向、入力画像が懸念されるためので、検索結果の合計があるだろう。この8つの出力は、出力画像に統合することができます。
出力の異なる方向の融合で同じ角度:
8つの異なるパターンに対して式(2)に従って計算効率係数:
図は、ECの大きさから8つの方向に並べ替えます。各パターンは重みが乗算された:i / N. N = 8は、私はこのパターンはECで場所を持っています。紙は、小さなECパターンのフィルタリング、閾値によって設定されました。
T = 0.3は、より妥当な値であると考えられて著者です。
図8は、次に方向を融合させます。
したがってPCA法channal1三つの画像は、得られたchannal2 channal3図の三のガボール希少グレイン方向から取り出します。
-------------------------------------------------- -----------------------------------------
第二段階:
このフェーズの希少性のメカニズムは、すべての後に、この事の名前で、キーrare2012です。
方法は以下のとおりである。統計的周波数スケールの画素が表示さを設定します。
n_in_i 是当前像素j的灰度值为i的概率(比例), n_in_i 就是根据rarity图的直方图得到的。这个公式说的有点不明不白的,S是啥?看起来是没有归一化的rarity图中的灰度最大值。不管怎样,它的思想就是统计图像中某一灰度出现的频率,认为是某一个灰度在局部区域出现的概率。这就是该像素的注意力得分,就是Attention()。
Fig. 2中给出了一个例子,输入左图,蓝色的区域在整幅图像中出现的概率较低,那么它在稀有度图中的值就偏高。
第二阶段中,对第一阶段得到的6张map计算attention。
-------------------------------------------------------------------------------------------
第三阶段:
对第二阶段得到的6张attention map进行融合操作。
首先是通道内融合,由channal1得到的颜色特征图纹理方向图计算attention后,进行融合。融合方法为:
就是EC和map点乘。这里出现了S哦,不过它是不是公式5中的S呢,这个要看下源码,论文中没说。N=2,为啥是2,哪里来的两张图,也不明白。
 
先不管这些地方,看最后,rare2012是如何得到最终的输出的:
根据第三阶段的融合操作,三个通道的图像最后输出了三个结果。
这三个结果再融合起来,就是最后的输出了。融合的方法就是第一阶段的第三步,融合gabor后的8张图像的方法。首先计算效率系数,然后排序,然后乘权重,阈值筛选。
rare2012是由rare2007和rare2011发展而来,每一次改进都带来的一些创新。性能更好,考虑的特征更全面。俺么rare2012结果如何?
对比结果中,上面是眼动监测的结果,也就是人眼实际的聚焦情况。下面是rare2012的结果。看起来挺好的嘛。
但是rare2012有时也有完全出错的时候。fig7中后面三个数据的结果,rare2012都错了。看来注意力机制还是要引入充分合理的自上而下的逻辑判断。
不过rare2012在当年对比同类模型,还是相当有优势的。当然论文中有定量的性能和准确率分析。
 
 

おすすめ

転載: www.cnblogs.com/isYiming/p/12158923.html