(論文閲覧 34-39) CNN を理解する

34. 文学読書メモ

導入

トピック

画像表現の等分散性と等価性を測定することで画像表現を理解する

著者

カレル・レンク、アンドレア・ヴェダルディ、CVPR、2015年。

元のリンク

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf

キーワード

等変性、不変性、等価性。

研究課題

勾配ヒストグラムとディープ畳み込みニューラル ネットワークは画像表現において非常に重要ですが、それらに対する理論的な理解はまだ限られています。

優れた表現では、不変性と識別性が組み合わされている必要があります。

優れた式は、不変性と識別性を兼ね備えている必要があります。しかし、この特徴付けはかなり曖昧であり、たとえば、どの不変式が表現に含まれているか、またそれらがどのように取得されるかが不明瞭であることがよくあります。

画像表現を研究するための新しいアプローチを提案します。

研究手法

表現の 3 つの重要な数学的特性、等変性、不変性、等価性を調査します。

等変性、不変性、等価性という 3 つの数学的性質を研究します。

等変性は、入力画像の変換がどのように表現され、エンコードされるかを研究します。不変性は、変換が何の効果も持たない特殊なケースです。

等価性では、CNN の 2 つの異なるパラメータ化などの 2 つの表現が同じ視覚情報を捉えているかどうかを調査します。

これらの方法は、CNN に変換とスティッチング (異なるネットワーク部分のスティッチングされた層の交換を可能にする) (等価性の検証) 層を導入することによって経験的に確立されています。

分析の結論

浅い表現と最先端のディープ CNN の最初の数層は、容易に予測可能な方法で画像変形に応じて変換され、異なるアーキテクチャ間で交換可能であるため同等です。より深い層はこれらのプロパティの一部を共有しますが、程度は低く、よりタスクに特化しています。

不十分なイノベーション

追加の知識

幾何学的不変性: 幾何学的不変性。

画像表現:テキストン、方向性勾配のヒストグラム (SIFT および HOG 、ビジュアル ワードのバッグ、スパースおよびローカル コーディング、スーパー ベクトル コーディング、VLAD、フィッシャー ベクトル、および最新のもの)深い畳み込みネットワークの生成

35. 文学読書メモ

導入

トピック

ディープ ニューラル ネットワークは簡単に騙される: 認識できない画像に対する信頼性の高い予測

著者

アン・グエン、ジェイソン・ヨシンスキー、ジェフ・クルーン、CVPR、2015 年。

元のリンク

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

ディープ ニューラル ネットワークは簡単に騙される: 認識できない画像に対する信頼度の高い予測-CSDN 博客

キーワード

DNNセキュリティ、「画像を騙す」

研究課題

人間の視覚と現在の DNN との興味深い違い、およびコンピューター ビジョンに対する DNN の一般化可能性についての疑問が生じます。

研究手法

人間には区別できない画像を生成することで、DNN は 99% の信頼度でそれが物体であると信じることができます。このような写真を取得するには、進化的アルゴリズムまたは勾配上昇法を使用します。

表現型エリート MAP-Elite の多次元アーカイブ、このアルゴリズムにより、ImageNet の 1000 クラスなどのグループを同時に進化させることができます。

「フール画像」と呼ばれる画像を生成するには、さまざまな方法があります。

1. 画像の特定のピクセルを突然変異させて進化させる通常の EA アルゴリズム

2.CPPN EA アルゴリズムは、対称性などのいくつかの幾何学的特性を画像に提供できます。

3. 勾配上昇

分析の結論

人間が認識できないパターンは、非常に高い信頼度で特定のラベルに割り当てられます。再トレーニングされた DNN がネガティブな例をフール画像として分類することを学習すると、再トレーニングを複数回繰り返した後でも、これらの新しいネットワークを騙すためにフール画像の新しいバッチが生成される可能性があります。

過学習の度合いが低くなり、不正行為が難しくなります。

データセットに含まれるカテゴリが多いほど、攻撃は難しくなります

不十分なイノベーション

追加の知識

MNISTのデータセットでは、データ量が少ないため、得られるネットワークモデルの容量が小さくなり、だまし画像が生成されやすく、また、だまし画像を用いたモデルの再学習による防御能力の向上も困難です。

ImageNetのデータセットは、データ量が多くカテゴリも多いため、ネットワークモデルの容量が大きくなり、騙し画像の生成が難しくなりますが、大容量であるため、再学習により防御能力を向上させることができます。 。

36. 文学読書メモ

導入

トピック

深い画像表現を反転して理解する

(反転)

著者

アラヴィンド・マヘンドラン、アンドレア・ヴェダルディ、CVPR、2015

元のリンク

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf

キーワード

イメージ表現の理解、反転

研究課題

画像をエンコードした場合、画像自体をどの程度再構築することが可能でしょうか?

研究手法

反転表現のための一般的なフレームワークに貢献しました。

Hog と sift は浅い表現を表します。

CNNはDeep Representationの略です。

HOG と DSIFT を CNN として実装し、導関数の計算を簡素化する方法を示します。

逆変換手法は、それぞれ浅い表現 (HOG および DSIFT) と深い表現 (CNN) の分析に適用されます。

反転では、最終的な画像コードのみが使用されます。つまり、ネットワーク出力にどのような情報が保持されているかが調査されます。

自然な画像事前分布を使用します。

損失関数: ユークリッド距離

分析の結論

CNN のいくつかのレイヤーは、さまざまな程度の幾何学的および測光的不変性を備えた画像の正確な情報を保持します。

勾配降下法に基づいて、最適化目的関数の浅い表現と深い表現を反転する最適化手法。代替手段と比較した主な違いは、Vβ ノルムなどの画像事前分布を使用すると、表現によって削除された低レベルの画像統計を回復できることです。畳み込みニューラル ネットワークに適用された視覚化により、各層が表す情報が表示されます。特に、画像コンテンツの進歩的でより不変で抽象的な概念がネットワーク内で発展していることは明らかです。

不十分なイノベーション

この方法では、画像表現と一般的な自然画像の事前分布からの情報のみを使用し、ランダム ノイズを初期解として採用するため、表現自体に含まれる情報のみをキャプチャします。

追加の知識

画像表現: 選別 -> ビジュアルワードの袋 -> CNN

37. 文学読書メモ

導入

トピック

Object Detectors Emerge in Deep Scene CNNs

作者

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, ICLR, 2015.

原文链接

http://arxiv.org/abs/1412.6856

关键词

理解CNN

研究问题

理解这些深层架构的内层所学习到的表象。

手工特征的表征结构往往是清晰的、可解释的,而对于深度网络来说,学习到的表征的性质是什么以及它为什么能如此出色地工作,仍然不清楚。

学习场景分类(即将图像分类为办公室、餐厅、街道等),为研究 CNN 在物体识别以外的任务中学到的内部表示提供了机会。

场景类别由其包含的物体定义,并在一定程度上由这些物体的空间配置定义。物体代表了场景的分布式代码(即不同场景类别之间共享物体类)。重要的是,在场景中,物体的空间配置虽然紧凑,但自由度要大得多。正是这种松散的空间依赖性,使得场景表示不同于大多数对象类(大多数对象类各部分之间没有松散的交互)。

研究方法

展示了目标检测器是通过训练CNN来进行场景分类的。由于场景是由物体组成的,用于场景分类的CNN自动发现有意义的物体检测器,代表学习到的场景类别。随着物体检测器作为学习识别场景的结果而出现。

只使用场景,不使用对象级的监督。

进行了一个简单的实验,以确定每个网络不同层所偏好的图像类型的差异:创建了一组 20 万张图像,其中以场景为中心的图像和以物体为中心的图像分布大致相同,并将它们同时运行于两个网络,记录每一层的激活情况。对于每一层,我们将获得平均激活度(特定层所有空间位置的总和)最大的前 100 张图像。图 1 显示了每一层的前 3 幅图像。我们观察到,对于两个网络来说,pool1和pool2等较早的层更偏好类似的图像,而较晚的层则倾向于更专注于场景或物体分类的特定任务。

给定一幅被网络正确分类的图像,我们希望简化这幅图像,使其保留尽可能少的视觉信息,同时对同一类别仍有较高的分类得分。简化后的图像(命名为最小图像表示)将使我们能够突出导致高分类得分的元素。为此,我们在梯度空间中处理图像。

研究了以下两种不同的方法。

在第一种方法中,我们给定一幅图像,创建边缘和区域的分割,然后从图像中迭代移除分割。每次迭代时,我们都会移除正确分类分数下降最小的片段,直到图像被错误分类为止。最后,我们会得到原始图像的表示形式,该表示形式大约包含了网络正确识别场景类别所需的最小信息量。图 2 展示了这些最小图像表征的一些示例。

物体似乎为网络识别场景贡献了重要信息。例如,在卧室的情况下,这些最小图像表征通常包含床的区域,或者在美术馆类别中,包含墙上画作的区域。

第二种方法:我们使用 SUN Database (Xiao et al., 2014)的全注释图像集生成最小图像表征(有关该数据集的详细信息),而不是进行自动分割。我们采用与第一种方法相同的程序,使用数据库中提供的ground-truth object segments。

对于卧室,在87 %的情况下,最小表示保留了床。卧室的其他物品为墙壁( 28 % )和窗户( 21 % )。对于美术馆来说,最小的图像表征包括绘画( 81 % )和图片( 58 % );在游乐园中,旋转木马( 75 % ),骑马( 64 % ),过山车( 50 % );书店以书柜( 96 % )、书( 68 % )、书架( 67 % )为主。这些结果表明,目标检测是网络构建的表示的重要组成部分,以获得用于场景分类的判别信息。

数据驱动的方法来估计每一层中每个单元的感受野(RF)。

作为输入,我们使用由 200k 张图像组成的图像集,其中场景和物体的分布大致相同(与第 2 章类似)。然后,我们选出给定单元激活度最高的 K 幅图像。对于 K 幅图像中的每一幅图像,我们现在要确定的是图像中哪些区域会导致高单元激活。为此,我们对每幅图像进行多次复制,并在图像的不同位置添加小的随机遮挡物(大小为 11×11 的图像斑块)。具体来说,我们以 3 为步长的密集网格生成遮挡物,这样每张原始图像就会有大约 5000 个遮挡图像。现在,我们将所有被遮挡的图像输入同一个网络,并记录与使用原始图像相比激活度的变化。如果差异很大,我们就知道给定的补丁(patch)很重要,反之亦然。这样,我们就能为每张图像建立差异图。

随着层数的加深,RF 的大小逐渐增大,激活区域也变得更具语义意义。我们使用不同单元的特征图来分割图像。RF 的实际大小远远小于理论大小,尤其是在后面几层。总之,通过这种分析,我们可以精确地聚焦于每个图像的重要区域,从而更好地理解每个单元。

研究结论

物体检测器是在学习对场景类别进行分类的过程中出现的,这表明单个网络可支持多个抽象层次(如边缘、纹理、物体和场景)的识别,而无需多个输出或网络。训练一个网络完成多项任务并将最后一层作为输出是很常见的做法,而在这里,我们展示了可以在每一层提取可靠的输出。由于物体是构成场景的部分,因此在网络的内层会学习到能区分不同场景的物体检测器。请注意,只有对特定场景识别任务有参考价值的物体才会出现。同一个网络可以在一次前向传递中完成物体定位和场景识别。

创新不足

额外知识

与 ImageNet-CNN 的特征相比,Places-CNN 的深度特征在场景相关的识别任务中往往表现更好。

receptive fields (RFs):感受野

38.文献阅读笔记

简介

题目

Inverting Visual Representations with Convolutional Networks

作者

Alexey Dosovitskiy, Thomas Brox, arXiv, 2015.

原文链接

http://arxiv.org/abs/1506.02753

关键词

重建彩色图像。

研究问题

提出了一种新方法来分析特征表示保留了哪些信息,丢弃了哪些信息。对模式识别任务有用的特征表示应集中于输入图像中对任务重要的属性,而忽略输入图像中无关的属性。

研究方法

浅层特征。我们反转了三种传统的计算机视觉特征表示:定向梯度直方图(HOG)、尺度不变特征变换(SIFT)和局部二值模式(LBP)。我们选择这些特征是有原因的。目前已经有了反转 HOG 的方法,因此我们可以与现有的方法进行比较。LBP 的有趣之处在于它不可微,因此基于梯度的方法无法反转它。SIFT 是一种基于关键点的表示法,因此网络必须将不同的关键点拼接成一张平滑的图像。

在提取特征之前,我们将图像转换为灰度图像

任务是重建彩色图像。特征不包含任何颜色信息,因此要预测颜色,网络就必须分析图像内容,并利用在训练过程中学到的自然图像先验信息。

很多时候,网络都能正确预测颜色,尤其是天空、大海、草地和树木。在其他情况下,网络无法预测颜色(例如图 3 最上面一行中的人),导致某些区域呈灰色。偶尔,网络也会预测出错误的颜色,如图 3 底行。

研究结论

图像的颜色和粗略轮廓可以从更高网络层的激活中重建,甚至可以从预测的类概率中重建。

隐含地学习自然图像先验。

AlexNet 畳み込みネットワークによって学習された表現に私たちの方法を適用すると、次の結論が得られます。 1) ネットワークの各層の特徴 (最後の FC8 層を含む) は、画像内のオブジェクトの正確な色とおおよその位置を保持します。 ; 2) 上位層では、入力画像のほとんどすべての情報が、正確な値ではなく、非ゼロの活性化パターンに含まれます; 3) FC8 層では、入力画像の情報のほとんどが、ネットワークによって予測されない 5 桁のカテゴリの可能性は低いです。

不十分なイノベーション

追加の知識

 "レイヤーの出力" : は、レイヤーの最後の処理ステップの出力を指します。たとえば、最初の畳み込み層 CONV1 の出力は、ReLU、プーリング、 正規化後の結果です。

39. 文学読書メモ

導入

トピック

畳み込みネットワークの視覚化と理解

著者

マシュー・ザイラー、ロブ・ファーガス、ECCV、2014 年。

元のリンク

https://www.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

キーワード

特徴可視化技術

研究課題

中間フィーチャ レイヤーと分類器の機能についての洞察を得る

研究手法

新しい視覚化手法が導入されています。

機能のアクティブ化を入力ピクセル空間に投影します。分類器出力の感度分析は、入力画像の遮蔽された部分によっても実行され、シーンのどの部分が分類にとって重要であるかを明らかにします。

deconvnet 層: (デコンボリューション層)

分析の結論

レイヤーの数が増加すると、構成性、不変性の増加、カテゴリの識別など、多くの直感的に望ましい特性が示されます。このモデルは、広範なシーンのコンテキストを利用するだけでなく、分類のためにトレーニングされている間、画像内の局所的な構造に非常に敏感です。モデルのアブレーション研究では、個々の部品ではなく、ネットワークの最小深さがモデルのパフォーマンスにとって重要であることが示されています。

不十分なイノベーション

追加の知識

アブレーション スタディ: さまざまなモデル レイヤのパフォーマンスへの寄与を発見します。

アブレーションスタディ(アブレーションスタディ、アブレーション学習、アブレーション実験)_Acceleratedのブログ - CSDNブログ

おすすめ

転載: blog.csdn.net/qq_46012097/article/details/134402975