AI メモ - ディープラーニング

CNN
CNN の値:

これにより、(結果に影響を与えることなく) 大きなデータボリュームの次元を小さなデータボリュームに効果的に削減でき、
人間の視覚原理と同様のグラフィックスの特性を維持できます。

CNN の基本原則:

畳み込み層 – 主な機能は画像の特性を保持することです
プーリング層 – 主な機能はデータの次元を削減し、オーバーフィッティングを効果的に回避することです
全結合層 – さまざまなタスクに従って必要な結果を出力します。

CNN の実際の応用:

画像の分類、検索、
ターゲットの位置決め、検出、
ターゲットのセグメンテーション、
顔認識

RNN
RNN と従来のニューラルネットワークの最大の違いは、毎回前の出力結果が次の隠れ層に持ち込まれることです。

長短期記憶ネットワーク – LSTM には
標準 RNN に 1 つの Tanh 層しかなく、重要な情報のみを保持します。

GRU は LSTM の亜種です。重要でない情報を強調表示したり無視したりするという LSTM の特性が維持されており、長期的な伝播中に失われることはありません。トレーニングデータセットが比較的大きい場合、これにより時間を大幅に節約できます。

RNN のユニークな価値は、シーケンスデータを効果的に処理できることです。
RNN に基づいて、LSTM や GRU などのバリアントアルゴリズムが登場しました。これらのバリアントアルゴリズムには、いくつかの主な特徴があります。

長期的な情報を効果的に保持できます
。保持する重要な情報を選択すると、重要でない情報は「忘れられます」。RNN
の典型的な用途は次のとおりです。
テキスト生成
音声認識画像説明を生成する
機械翻訳ビデオのタグ付け

GANの本来の目的
: 自動
生成された敵対的ネットワーク (GAN) は 2 つの重要な部分で構成されます。

ジェネレーター: ディスクリミネーターを「欺く」目的で、機械を通じてデータ (ほとんどの場合画像) を生成するディスクリミネーター
: ディスクリミネーターを「欺く」ことを目的として、画像が本物であるか機械で生成されたものであるかを判断します。
ジェネレーターが作った「偽データ」を見つけ出す
3つのメリット

データ分布をより適切にモデル化できます (画像がより鮮明で鮮明になります)
理論的には、GAN はあらゆる種類のジェネレーターネットワークをトレーニングできます。
他のフレームワークでは、出力層がガウスであるなど、ジェネレーターネットワークが何らかの特定の関数形式を持つ必要があります。
繰り返しのサンプリングにマルコフ連鎖を使用する必要はなく、学習プロセス中に推論を行う必要も、複雑な変分の下限も必要なく、
トリッキーな確率の近似計算という難しい問題を回避できます。
2つの欠陥

トレーニングが難しく、不安定です。
ジェネレーターとディスクリミネーターの間には良好な同期が必要ですが、実際のトレーニングではD が収束し、G が発散しやすくなります。D/G トレーニングには慎重な設計が必要です。
モード崩壊の問題。GAN の学習プロセスではパターン損失が発生する可能性があり、ジェネレーターが
劣化し始め、常に同じサンプルポイントを生成し、学習を継続できなくなります。