コンピュータービジョンタスクの概要

コンピュータービジョンタスクの概要

他の2つのブログ
https://blog.csdn.net/weixin_44523062/article/details/104577628
https://blog.csdn.net/weixin_44523062/article/details/104535650を参照して、
コンピュータービジョンに関するCVの研究の方向性要約しますタスクの独自の概要を行います。CV研究の方向性のダイナミクスに応じて、将来更新するのが便利です。
履歴書分野のコースと本の体系的な説明

  • コース1:Li FeiFei CS231n 2019の指導コンセプトは直感思考に重点を置いています
  • コース2:Ye Zi Computing Visual Deep Learning Practice 2017
  • 著書:Computer Vision A Modern Method Second Edition


CVの4つの基本的なタスクはcs231nから来ています:分類、位置付け、検出、セグメンテーション
Lifeifei CS231

1.画像分類CNN + FC + softmax

  1. タスク:分類、input-Img–> output-label
  2. 方法:ラベル付きデータ
    セットを使用- >機能を抽出->トレーニング分類子Lenet1998、Alexnet2012、ZFnet2013、Vggnet2014、GoogleNet2014、Resnet2015、Densenet2016
  3. データセット:Mnist手書き数字、CIFAR10、Imagenet1000
    MNIST 60kトレーニング画像、10000テスト画像、10カテゴリ、画像サイズ1×28×28。
    CIFAR-10 50kトレーニング画像、10kテスト画像、10カテゴリ、画像サイズ3×32×32。
    CIFAR-100 50kトレーニング画像、10000テスト画像、100カテゴリ、画像サイズ3×32×32。
    ImageNet 1.2Mトレーニング画像、50k検証画像、1kカテゴリ。2017年以前は、mageNetデータセットに基づくILSVRCコンテストが毎年開催されます。これは、コンピュータービジョン業界のオリンピックに相当します。
  4. アプリケーション:CV画像理解の基礎、ターゲット認識およびターゲットセグメンテーションの準備
  5. 評価:精度:分類正数/全数
  6. 拡張分類子のタイプ:判別的、生成的(ソースcv現代的な方法)- サンプルデータの束について、確率分布の観点からhttps://blog.csdn.net/u010358304/article/details/79748153
    ここに画像の説明を挿入
    参照してください、それぞれには分類ラベルyiに対応する特徴Xiがあります。
  • モデルの生成:統計とベイズを理論的基礎として使用します。共同確率分布P(x、y)、つまり、特徴xとラベルyが共起する確率を取得し、条件付き確率分布を見つける方法を学びます。データ生成のメカニズムを学ぶことができる。
    • 1.ナイーブベイズ2.混合ガウスモデル3.隠れマルコフ
  • 判別モデル:条件付き確率分布P(y | x)、つまり、特徴xが表示されたときにラベルyが表示される確率を取得する方法を学びます。
    • 1.パーセプトロン2. k最近傍法3.決定木4.ロジスティック回帰5.最大エントロピーモデル6. SVM 7.ブースティング(AdaBoost)8.条件付きランダムフィールド(CRF)9. CNN
  1. コード:pytorchにはResnet、Vggnet、およびtorchvisionのデータセット:Minist、CIFARが付属しています。これらは、より深い画像理解タスクに適用されるバックボーンであり、すべて事前トレーニング済みモデルの微調整を使用します

2.ターゲット検出(位置決め+分類)

ローカリゼーションタスクは、顔検出や歩行者検出などの特定のターゲットを出力する境界ボックスです。これはターゲット検出の一部です。
ターゲット検出タスク:1ポジショニング+ 2カテゴリ+ 3信頼度。
従来の方法は手動の特徴検索です
。2種類の深層学習方法:1候補領域に基づいて特徴を抽出してから、boundingBox回帰; 2回帰ポジショニング検出に基づく1ステージ

2.1、オブジェクトローカリゼーション(オブジェクトローカリゼーション)

  1. 画像の分類に基づいて、画像内のターゲットがどこにあるか、通常は境界ボックスの形で知りたいです。基本的な考え方はマルチタスク学習で、ネットワークには2つの出力ブランチがあります。1つのブランチは画像分類に使用されます。つまり、完全な接続+ソフトマックスはターゲットカテゴリを決定します。純粋な画像分類との違いは、別の「背景」カテゴリがあることです。もう1つのブランチは、ターゲット位置を判断するために使用されます。つまり、回帰タスクを完了し、バウンディングボックスの位置をマークする4つの数値(中心点の水平および垂直座標、バウンディングボックスの長さと幅など)を出力します。このブランチの出力結果は、分類ブランチの判断が「背景」でない場合のみです。使用する前に。

  2. 人体ポーズポジショニング/顔ポジショニングターゲットポジショニングの考え方は、人体ポーズポジショニングや顔ポジショニングにも利用できます。これらはどちらも、人間の関節や顔の一連の重要なポイントに戻る必要があります。

  3. 弱く監視されたポジショニングターゲットのポジショニングは比較的単純なタスクであるため、最近の研究ホットスポットは、ラベル付けされた情報のみの条件下でのターゲットのポジショニングです。基本的な考え方は、たたみ込みの結果からいくつかの応答性の高い顕著性領域を見つけ、この領域が画像内のターゲットに対応すると考えます。

2.2、ターゲット検出

  1. タスク:パノラマ画像のターゲット位置、境界ボックス、カテゴリラベル、および信頼度を特定します。ユニバーサル検出フレームワークには、単一の特定のターゲットと複数のターゲットを検出するために使用できる高速のrcnnがあります。タスクのトレーニングデータに従って、さまざまな検出モデルをトレーニングできます:顔、歩行者、マスクなど

  2. 方法:
    従来の方法:
    1領域選択(スライディングウィンドウ):スライディングウィンドウトラバーサルは対象外(スケール、時間の複雑さ、ウィンドウの冗長性)
    2特徴抽出(SIFT、HOGなど)手動の特徴不安定性
    3分類器(SVM、 Adaboostなど)+高検索率
    でのNMSおよびソフトNMSの高精度の粗い顔の特徴+カスケード分類器、HOG歩行者特徴+ SVM分類器、DPM可変性パーツモデルオブジェクト検出の
    深層学習法:RCNN、yolo、ssd、fcnマルチ機能フュージョン
    1候補領域に基づいて、領域提案に基づいて2つのステージ
    RCNN、Fast-RCNN、Faster-RCNN(RPN候補領域ネットワーク)、R-FCN
    候補領域(類似のスライディングウィンドウをマージ):ウィンドウが少なく、再現率が高い( (画像のテクスチャ、エッジ、色などを使用します)
    (1)選択検索を使用して提案を抽出し、CNNおよびその他の認識手法を使用して分類します。
    (2)事前トレーニングに認識ライブラリを使用し、次に検出ライブラリを使用してパラメーターを調整します。
    (3)SNNはCNNネットワークの最後のSoftmaxを置き換えるために使用され、CNNによって出力された4096次元のベクトルはバウンディングボックス回帰に使用されます。
    (4)プロセスの最初の2つのステップ(候補領域の抽出+特徴の抽出)は、検出されるカテゴリとは関係なく、異なるカテゴリ間で共有できます。同時に複数のカテゴリを検出する場合は、最後の2つのステップ(識別+絞り込み)を2倍にするだけで済みます。すべてが単純な線形演算で、非常に高速です
    。2回帰に基づいて1ステージ
    です。1度しか見ません(Yolo-v1-3)
    シングルショットマルチボックス検出器(SSD)。
    FPN:フォーカス、マルチ機能フュージョン、深い機能マップのデコンボリューション、浅い機能とのフュージョン
    RetinaNet解釈https://blog.csdn.net/JNingWei/article/details/80038594

  3. データセットImagenet1000、PASCAL VOC20カテゴリ2007、およびMS COCO80カテゴリ
    PASCAL VOCには、20のカテゴリが含まれています。通常は、VOC07とVOC12のtrainingvalユニオンをトレーニングとして使用し、VOC07のテストセットをテストとして使用します。
    COCOはVOCよりも難しいです。COCOには、80kのトレーニングイメージ、40kの検証イメージ、および20kの未公開のテストイメージ(test-dev)、80のカテゴリが含まれ、イメージあたりの平均ターゲット数は7.2です。通常、80kトレーニングと35k検証画像の和集合がトレーニングに使用され、残りの5k画像は検証に使用され、20kテスト画像はオンラインテストに使用されます。

  4. アプリケーション:追跡、再識別

  5. 評価方法:mAP、相互組み合わせ比IoU> 0.5-0.7が一般的に検出され、平均評価指標F1スコア= 2PR / R + P
    ここに画像の説明を挿入
    mAP(平均平均精度)がターゲット検出で一般的に使用されます。計算方法は次のとおりです。予測されたバウンディングボックスと実際のバウンディングボックスの交差率が特定のしきい値(通常は0.5)より大きい場合、予測は正しいと見なされます。各カテゴリについて、精度-再現率曲線を描きます。平均精度は曲線の下の面積であり、プログラムは検出されたターゲットの数に応じて計算をしきい値で割ります。その後、すべてのカテゴリの平均精度が平均化され、[0、100%]のmAPが取得されます。これらの2つの境界ボックスの和集合の面積で除算された
    和集合(IoU)アルゴリズムの積積によって予測される、境界ボックスと真の境界ボックスの交点の面積は[0、1]です。交差比率は、アルゴリズムによって予測された境界ボックスと実際の境界ボックスの近さを測定します。交差比率が大きいほど、2つの境界ボックスの重なりが大きくなります。

  6. 困難またはトリック
    非最大抑制(NMS)ターゲット検出で発生する可能性がある1つの問題は、モデルが同じターゲットに対して複数の予測を行い、その結果、複数の境界ボックスが生成されることです。NMSは、予測結果を真のバウンディングボックスに最も近く保ち、他の予測結果を抑制することを目的としています。NMSのアプローチは、まず、各カテゴリについて、NMSは各予測出力がそのカテゴリに属する​​確率を最初にカウントし、予測結果を確率の高い順に並べ替えます。第2に、NMSは、確率が低い予測結果ではターゲットが見つからないと考え、抑制します。次に、NMSは残りの予測結果の中で最も確率が高い予測結果を見つけて出力し、バウンディングボックスとのオーバーラップが大きい他のバウンディングボックス(0.3を超えるIoUなど)を抑制します。すべての予測結果が処理されるまで、前のステップを繰り返します。
    オンラインハードサンプルマイニング(OHEM)ターゲット検出のもう1つの問題は、カテゴリの不均衡です。画像のほとんどの領域にターゲットが含まれておらず、小さな領域にのみターゲットが含まれています。また、ターゲットの検出の難しさはさまざまで、ほとんどのターゲットは簡単に検出できますが、ターゲットの数が少ないと非常に困難です。OHEMとBoostingは同様の考え方を持っています。これらはすべての候補領域を損失値に従って並べ替え、損失値が最も高い候補領域の一部を最適化のために選択して、ネットワークが画像内のより困難なターゲットにより注意を向けるようにします。また、OHEMは、重なり合う候補領域の選択を回避するために、損失値に従って候補領域に対してNMSを実行します。
    対数回帰では、回帰は分類の最適化よりもはるかに困難です。\ ell_2損失は外れ値の影響を受けやすくなります。正方形のため、外れ値の損失値が大きくなると同時に、勾配が大きくなり、トレーニング中に勾配爆発が発生しやすくなります。\ ell_1損失の勾配は不連続です。対数空間では、値のダイナミックレンジがはるかに小さいため、回帰トレーニングもはるかに簡単です。また、最適化のためにスムーズなell_1損失を使用する人もいます。事前に返品目標を正規化すると、トレーニングにも役立ちます。
    元のリンク:https://blog.csdn.net/Fire_to_cheat_/article/details/88551011

  7. コード:Imagenetまたはcocoで実行されるYolo、fasterR-CNN

3.ターゲットのセグメンテーション(セマンティクス、例)

  1. タスク:ピクセルレベルへのセグメンテーション、輪郭領域のマスク。セマンティックセグメンテーションはクラス間の区別であり、インスタンスセグメンテーションも
    セマンティックセグメンテーションを区別する必要があります。セマンティックセマンティック:データに対応する現実世界における各ピクセルの役割を意味的に理解します(たとえば、車、オートバイ、または他のカテゴリかどうかを識別します)。物事によって表される概念の意味、同じ概念的な意味を持つオブジェクトは、
    インスタンスに分割されます:基本的なアイデアのターゲット検出+セマンティックセグメンテーション。最初にターゲット検出方法を使用して画像内の異なるインスタンスをフレーミングし、次にセマンティックセグメンテーション方法を使用して異なるピクセルで各ピクセルをマークします。
    セマンティックセグメンテーションに加えて、インスタンスセグメンテーションでは、5つの車に5つの異なる色を付けるなど、さまざまなタイプのインスタンスを分類します。分類タスクは通常、画像に含まれる単一のオブジェクトを識別することですが、インスタンスをセグメント化する場合は、より複雑なタスクを実行する必要があります。複数の重なっているオブジェクトと、背景が異なる複雑なシーンが表示されます。これらの異なるオブジェクトを分類するだけでなく、オブジェクト間の境界、違い、および関係を決定する必要があります。
  2. 方法:
    セマンティックセグメンテーション
    FCN完全畳み込みニューラルネットワークU字型ネットワーク
    拡張型畳み込み、DeepLabおよびRefineNet、Cascades2015
    強度セグメンテーション:マスクR-CNN
  3. データセット:MSCOCO、VOC
    PASCAL VOC 2012 1.5kトレーニング画像、1.5k検証画像、20カテゴリ(背景を含む)。
    COCOには、83kのトレーニング画像、41kの検証画像、80kのテスト画像、80のカテゴリがあります
  4. アプリケーション:医用画像セグメンテーション
  5. 評価方法:IoU、mAP
    ここに画像の説明を挿入
  6. 分類、位置付け、より一般的なターゲット認識、セマンティックセグメンテーション、インスタンスセグメンテーション
    の4つのタスクでは、画像をより深く理解する必要があります入力画像が与えられると、画像分類タスクは、画像が属するカテゴリを決定することを目的とします。配置は画像の分類に基づいており、画像内のターゲットが画像内のどこにあるか、通常は境界ボックスの形でさらに決定されます。ターゲットの位置決めでは、通常、ターゲットは1つまたは固定数のみであり、ターゲット検出はより一般的であり、画像に表示されるターゲットのタイプと数は不明確です。セマンティックセグメンテーションは、ターゲット検出のより高度なタスクです。ターゲット検出では、各ターゲットのバウンディングボックスをフレーム化するだけで済みます。セマンティックセグメンテーションでは、画像内のどのピクセルがどのターゲットに属しているかをさらに特定する必要があります。ただし、セマンティックセグメンテーションでは、同じカテゴリに属する​​異なるインスタンスは区別されません。たとえば、画像に複数の猫がいる場合、セマンティックセグメンテーションは2つの猫のすべてのピクセルを「猫」のカテゴリとして予測します。これとは異なり、インスタンスセグメンテーションでは、どのピクセルが最初の猫に属しているか、どのピクセルが2番目の猫に属しているかを区別する必要があります。さらに、ターゲットトラッキングは通常、ビデオデータに使用され、フレーム間のタイミング関係を使用しながら、ターゲット検出と密接な関係があります。
    ここに画像の説明を挿入
  7. 研究チーム:Foolwoodと同じ人物のWangQiang
    SiamMask https://zhuanlan.zhihu.com/p/58154634
  8. コード:MaskRCNN

4.ターゲット追跡(ビデオ)

  1. タスク:パノラマMTSC、MTMC、マルチターゲットシングルカメラ、マルチターゲットマルチカメラ
    STSCに基づいて、スライスされた歩行者画像(プローブ画像)、パノラマビデオ(パノラマトラック、ビューのごく一部のみがこの歩行者)からプローブの場所を見つけます。このパノラマビデオは、1台のカメラで撮影された連続フレームです。

  2. 方法:生成アルゴリズム判別アルゴリズム
    生成アルゴリズムは、生成モデルを使用して見かけの特徴を記述し、再構成エラーを最小化して主成分分析アルゴリズム(PCA)などのターゲットを検索します。
    判別アルゴリズムは、オブジェクトと背景を区別するために使用され、そのパフォーマンスはより堅牢ですそして徐々にオブジェクトを追跡する主な手段になります(識別アルゴリズムは「検出による追跡」とも呼ばれ、ディープラーニングもこのカテゴリに属します)
    従来の方法:
    1生成オプティカルフロー法、ターゲットのみに焦点を当てる
    場合、バックグラウンドを無視する2関連するフィルタリング方法CSK予測と高速化の
    深層学習方法があります:
    C-COT、ECO、MDnet、siamFC
    深層ネットワークモデル:スタックド自動エンコーダー(SAE)と畳み込みニューラルネットワーク(CNN)。

  3. データセット
    OTB50、OTB100、VOT2016
    cityflow最初のクロスカメラの車追跡データセット、または車両REID
    https://www.jiqizhixin.com/articles/2019-03-26-13既存の追跡アルゴリズム分析Deep SORTを含む

  4. アプリケーション:インテリジェントな監視、都市のセキュリティの
    概要https://www.cnblogs.com/liuyihai/p/8338369.html

  5. 評価方法
    リアルタイム、正確(追加する必要がある、コードでVOTゲームを定義する方法)

  6. 研究チーム:Kuangshi Wangmengmeng Zhejiang University

  7. コード:
    foolwood-Siammask作成者、トラッカーの概要https://github.com/foolwood/benchmark_results
    as
    yolo v3 + tracking https://blog.csdn.net/weixin_42035807/article/details/89496378
    KCF記事http:// www。 robots.ox.ac.uk/~joao/publications/henriques_tpami2015.pdf
    KCF https://github.com/HenryZhangJianhe/KCF
    アルゴリズム

  8. コード:KCF(核フィルター)、相関フィルター

5.ターゲットの再識別(ReID:人、車)

  1. タスク:画像検索サブタスク、指定されたプローブがギャラリー内の同じクロスカメラ画像を検索しますが、パノラマに基づいていません。データセットは、検出され、ターゲットが含まれている画像です
  2. 方法:
    表現学習、クロスエントロピー分類、コントラスト損失、属性損失、
    メトリック学習:トリプルロス、
    ローカルアライメントマッチング:
    GAN生成に基づくPCB
  3. データセットの
    車:cityflow2019、北京ポストのVeRi-776、北京大学のVehicleID、北京大学のPKU-VD
    歩行者:Market1501、デューク
  4. アプリケーションの
    トレース、クラスタリング
  5. 評価方法:mAP
    は、ターゲットの再識別とターゲットの追跡違いに答え
    ますhttps://www.zhihu.com/question/283460186/answer/869165399
    歩行者のトラッキングと再識別の違いに回答しますLuo Hao
    https://www.zhihu.com/question/ 68584669 REIDとトラッキングの違い
    7.研究チーム:Luo Hao、Zheng Liang

6、画像説明RNN +注意

  1. タスク:画像->テキスト。テキスト説明付きのトレーニング画像、入力Img–>出力説明語

  2. 方法:エンコードとデコード、RNNでのLSTM、アテンションメカニズム

  3. データセット:

  4. アプリケーション:ブラインドガイド

  5. 評価方法:翻訳文の評価方法

  6. 困難

  7. データの欠如

7、画像生成:GAN

  1. タスク
  2. 方法
  3. データセット
  4. アプリケーション
  5. 評価基準
  6. 困難

8、微調整、転移学習

九、クロスドメイン適応

1.セグメンテーションのため
2.再識別の
ため3.追跡のため

10.教師なし学習

一般的に使用される11のデータセット

一般的なデータセットの照合URL https://www.cnblogs.com/liuyihai/p/8338020.html

幾何学的属性の12のコンピュータービジョンタスク

上記の8つの項目はすべて意味認識CVタスクであり、幾何属性に基づくタスクは、3Dモデリング、拡張現実、両眼視に分類されます。
ここに画像の説明を挿入

13.アプリケーションの合成

  • 顔認識:SnapchatとFacebookは顔検出アルゴリズムを使用して顔を認識します。
  • 画像の取得:Google画像検索では、コンテンツベースのクエリを使用して関連画像を検索します。アルゴリズムはクエリ画像のコンテンツを分析し、最も一致するコンテンツに基づいて結果を返します。
  • ゲームとコントロール:ステレオビジョンを使用したより成功したゲームアプリケーション製品は、Microsoft Kinectです。
  • 監視:疑わしい行動を監視するために使用される監視カメラは、主要な公共の場所に散在しています。
  • バイオメトリクス技術:指紋、虹彩、顔照合は、バイオメトリクスの分野でまだいくつかの一般的な方法です。
  • スマートカー:コンピュータビジョンは、依然として交通標識、ライト、その他の視覚的特徴を検出するための主要な情報源です。
  • Yun Na Wu Gan Payment Retail http://www.yunatop.com/

14.リファレンス

コンピュータービジョンの5つの主要テクノロジーの詳細な説明:画像分類、オブジェクト検出、ターゲット追跡、セマンティックセグメンテーション、インスタンスセグメンテーション

コンピュータービジョンの概要
LifeifeiコースZihaoの説明

15、以下はCVPR2019の優れた紙の分類です

http://bbs.cvmart.net/topics/302/cvpr2019paper
ここに画像の説明を挿入

63の元の記事を公開 賞賛7 ビュー3396

おすすめ

転載: blog.csdn.net/weixin_44523062/article/details/104468840