CS231n 研究ノート 1 画像分類、KNN

注: これは、cs231n (つまり、スタンフォード大学リー フェイフェイが教える深層学習とコンピューター ビジョンのコース) を学習するための私の学習ノートです。


画像分類の難しさ:

ここに画像の説明を書きます

新しい用語: データ駆動型手法
私はこれを機械学習手法として理解しています。子供たちに絵を見て物体を認識するように教えるのと似ています。コンピュータに大量のデータを与えて、コンピュータに形状を学習させる学習アルゴリズムを実装します。各クラス。このアプローチはデータ駆動型のアプローチです。


画像分類プロセス

コース ビデオで学習したように、画像の分類では、要素がピクセル値である配列を入力し、それに分類ラベルを割り当てます。完全なプロセスは次のとおりです。

  • 入力: 入力は N 個の画像のコレクションであり、各画像のラベルは K 分類ラベルの 1 つです。このセットはトレーニングセットと呼ばれます。
  • 学習: このステップのタスクは、トレーニング セットを使用して、各クラスがどのようなものかを学習することです。通常、このステップは分類器のトレーニングまたはモデルの学習と呼ばれます。
  • 評価: 分類器にまだ見ていない画像の分類ラベルを予測させ、これを使用して分類器の品質を評価します。分類器によって予測されたラベルと画像の実際の分類ラベルを比較します。分類器によって予測された分類ラベルが画像の実際の分類ラベルと一致していれば、それは良いことであることに疑いの余地はなく、そのようなケースが多ければ多いほど良いことになります。

最近傍分類器

  • 画像分類データセット: CIFAR-10. 非常に人気のある画像分類データセットは CIFAR-10 です。このデータセットには、32X32 の小さな画像が 60,000 枚含まれています。各画像には 10 個の分類ラベルのうちの 1 つが付いています。これらの 60,000 枚の画像は、50,000 枚の画像のトレーニング セットと 10,000 枚の画像のテスト セットに分割されます。

実際、これはいわゆる KNN 分類器です。以前の学習では 2 次元の点が使用されていました。トレーニング セットのラベルを使用して、テスト セットに点を置き、最も近い K 点を見つけます。これらの K 点のうちのどれか1 つのカテゴリのほとんどが、このテスト ポイントをどのカテゴリに分類します。

これは画像の分類に関するもので、CIFAR-10 の画像が 50,000 枚 (カテゴリごとに 5,000 枚) トレーニング セットとしてあり、残りの 10,000 枚をテスト セットとして使用してラベルを付けたいとします。最近傍アルゴリズムは、テスト画像をトレーニング セット内の各画像と比較し、テスト画像に最も類似していると思われるトレーニング セット画像のラベルを割り当てます。
では、2 つの画像をどのように比較するのでしょうか? この場合、32x32x3 ピクセル ブロックを比較しています。最も簡単な方法は、ピクセルごとに比較し、最終的にすべての差分値を合計することです。つまり、2 つのピクチャは最初に 2 つのベクトル I_1 と I_2 に変換され、次にそれらの L1 距離が計算されます。

ここに画像の説明を書きます

ここでの合計はすべてのピクセルの値です。以下は、比較プロセス全体を示しています。

ここに画像の説明を書きます


おすすめ

転載: blog.csdn.net/qq_23590921/article/details/78176221
おすすめ