目次
2.1分類+回帰モデルのニューラルネットワークアーキテクチャ
4.完全なたたみ込みネットワークを使用して、完全なリンク層を削除し、回帰を分類問題に変更します
4.1.1ホストコンピューティングデバイスの現在のリストを取得する
1画像配置の理論的知識
1.1一般的な画像処理タスク
(1)分類
私たちの一般的な分類の問題、これはコアと基盤でもあります
画像と位置データの分析と視覚化
(2)分類+位置付け
(3)セマンティックセグメンテーション
長方形のフレームだけでなく、画像のすべてのピクセルを区別します
(4)ターゲット検出
簡単に言えば、ターゲットの検出とは、画像の内容に答えることです。それらはどこにありますか(長方形で囲みます)
一般的なものはF-CNNです
(5)インスタンス分割
インスタンスのセグメンテーションは、ターゲット検出とセマンティックセグメンテーションの組み合わせです。
相対ターゲット検出の境界ボックスインスタンスセグメンテーションは、オブジェクトのエッジに対して正確である可能性があります
セマンティックセグメンテーションと比較して、インスタンスセグメンテーションでは、マップ上の同じオブジェクトの異なる個人にラベルを付ける必要があります
次に、シンプルな画像の配置から始めましょう
2画像の配置
単純な分類問題の場合、理解しやすくなります。画像を指定すると、すでに知っているラベルカテゴリが出力されます
配置には少し責任があります。4つの数値(x、y、w、h)、画像内の特定の点の座標(x、y)、および画像の高さと幅を出力する必要があります
ではこれらの4つの数字、我々は、オブジェクトの境界線を見つけることができます
2.1分類+回帰モデルのニューラルネットワークアーキテクチャ
監督は問題です、私たちはXCEPTIONを使用しています
37種類のペット、200種類のペットを含むOxford-IIITデータセットを使用します
2.2トレーニングセットの分析
私たちが使用するデータセットには、猫の写真とアバターの位置(xml)が含まれています
各画像のサイズが異なることを考えると、赤枠の位置は画像のサイズに関連しているため、スケーリングする必要があります
2.3パイプラインを作成する
2.4モデルの配置と作成
2.5予測結果
2.6モデルの配置と予測
モデルの保存:model.save(detect_v1.h5)およびモデルの読み取りは、前の章と同様です
トレーニング済みモデルを使用して、予測結果を確認しましょう
私たちの実験は次の部分だけを行います
3画像配置の最適化、評価、および適用の概要
画像の位置を予測することは本質的に回帰の問題であり、その位置に直接戻ることには2つの欠点があります。
1、戻り位置は正確ではありません ---不正確な座標の使用
2. 汎化能力が良くない -前景と背景がテスト用の画像と非常に似ている場合、汎化能力は良くありません。
3.現在のアルゴリズムは単一のインスタンスのみを予測できます(これは不利ではありません)---複数のアバターが画像上にある場合、それらは認識できないことを説明するためだけのものです
3.1画像配置の最適化
1.最初に大きい、次に小さい
これで、画像全体のキーポイントが予測され、予測されたキーポイントの周囲で2番目の予測が行われます。
2.スライディングウィンドウの方法
小さなウィンドウを使用して画像をスライドさせ、毎回2つの予測を行います
- 重要な点はありますか
- ポイントの場所
3.不明確な予測問題の場合:
最初に複数のオブジェクトを検出してから、複数のオブジェクトの位置に戻ることができます
4.完全なたたみ込みネットワークを使用して、完全なリンク層を削除し、回帰を分類問題に変更します
3.2画像配置の評価
IOUを使用して画像配置の精度を評価できます
IoUの正式名称は、Inersection over Union(Inersection over Union)です。
IOUは、計算比の交点と労働組合の「予測フレーム」と「真のフレームを」
したがって、値は[0、1]の間にあります
3.3画像配置の適用
たとえば、14ポイントある場合、姿勢を取得できます
最初に重要なポイントを評価し、次に重要なポイントを組み合わせます。これは研究の方向性です。興味がある場合は、
4補足知識
4.1配布に使用されるGPU
4.1.1現在のホスト上のコンピューティングデバイスのリストを取得する
現在のプログラムから見えるデバイスの範囲を設定します
注意:
4.1.2グラフィックカードの使用戦略を設定する
デフォルトでは、tfはメモリの断片化によるパフォーマンスの低下を回避するために、ほぼすべての使用可能なビデオメモリを使用します
TFは2つの柔軟なメモリ制御方法を提供します
1. 必要なときにのみ適用する
2. 固定サイズのビデオメモリの消費を 制限する
4.2自動グラフ操作
TF 2.0は、eagerモードのシンプルさと TF 1.0の強力なグラフ操作機能を組み合わせたものです。この合併の中心はtf.functionです。
注意
私たちは実験中です
4.2.1コードの実装
model.fit *((
デフォルトではグラフ操作を使用するため、熱心に使用してニューラルネットワークをカスタマイズしない限り、グラフ操作を使用する必要があります。