CVPR 2022データセットの概要|ターゲット検出、マルチモダリティ、その他の方向性を含む

編集丨Gokushiプラットフォーム

M5Productデータセット

紙のアドレス:https://arxiv.org/abs/2109.04275

データセットアドレス:https://xiaodongsuper.github.io/M5Product_dataset/index.html

M5Productデータセットは、電子製品の粗い注釈と細かい注釈を備えた大規模なマルチモーダル事前トレーニングデータセットです。

  • 600万のマルチモーダルサンプル、5kの属性、2400万の値

  • 5つのモード-画像テキストテーブルビデオオーディオ

  • 6kカテゴリの600万カテゴリアノテーション

  • 広範なデータソース(100万の商人から)

622d84f29357f84c6f4243881fed9f12.png

Ego4D

紙のアドレス:https://arxiv.org/abs/2110.07058

データセットアドレス:https://ego4d-data.org/

世界74か国と9か国で収集された、日常生活動作の3,670時間以上のビデオの大規模な自己中心的なデータセットとベンチマークスイート。GoPro、Vuzix Blade、Pupil Labs、ZShades、OR-DRO EP6、iVue Rincon 1080、Weeviewの7種類の既製のヘッドマウントカメラでデータをキャプチャします。ビデオに加えて、一部のEgo4Dは、3Dスキャン、オーディオ、注視、ステレオ、複数の同期されたウェアラブルカメラ、テキストナレーションなどの他のデータモダリティを提供します。

9cb440da71df6603fdea3ad7bf0c5227.png

毎日のマルチスペクトル衛星データセット

紙のリンク:https://arxiv.org/pdf/2203.12560.pdf

データセットアドレス:https://mediatum.ub.tum.de/1650201

DynamicEarthNetデータセットには、毎日のPlanet Fusion画像と、2年間にわたる世界中の75の地域の毎月の土地被覆カテゴリが含まれています。7つの土地被覆カテゴリは、時間的に一貫した方法で手動で注釈が付けられました。Sentinel2の画像も提供されています。このデータセットは、最初の大規模なマルチクラスおよびマルチテンポラル変化検出ベンチマークであり、地球観測およびコンピュータービジョンにおけるマルチテンポラル研究の新しい波を促進することを願っています。

5c9d250e6e1ef38fbe79bf95ceb15049.png

VCSL(ビデオコピーセグメントローカリゼーション)データセット

紙のアドレス:https://arxiv.org/abs/2203.02654

データセットアドレス:https://github.com/alipay/VCSL/tree/main/data

ビデオレベルの注釈または小規模によって制限される既存の重複検出データセットと比較すると、VCSLには、2桁のセグメントレベルのラベル付きデータ、280,000を超えるローカルで複製されたセグメントペアを含む160,000の真のビデオレプリカペアだけでなく、カバーもあります。さまざまなビデオカテゴリと幅広いビデオ期間。収集された各ビデオペアの複製されたすべてのセグメントは、正確に注釈が付けられた開始タイムスタンプと終了タイムスタンプを使用して手動で抽出されました。

2eda5219c74c24f1b43537ce7d1e0cc3.png

Rope3D

紙のアドレス:https://arxiv.org/abs/2203.13608

データセットアドレス:https://thudair.baai.ac.cn/rope

Rope3Dオブジェクト検出データセットは、画像と点群の3Dジョイントアノテーションを備えた最初の大規模なマルチビューロードサイドデータセットであり、合計50,009フレームの画像データと対応する2D&3Dアノテーション結果を備えています。このデータセットに基づいて、路傍の単眼3D検出タスクに関する研究を行うことができます。

00afa2a77f9290bbca1a8be997a7b6ef.png

EDSデータセット

データセットアドレス:https://github.com/DIG-Beihang/PSN

EDSデータセットは、マシンのハードウェアパラメータによって引き起こされる、知覚できないドメイン間シフトの問題を対象としています。10のカテゴリのアイテムを含む3つの異なるX線マシンからの14,219の画像が含まれ、合計31,655のターゲットインスタンスがあります。プロのアノテーターによって作られました。ラベル。

FineDiving

紙のアドレス:https://arxiv.org/pdf/2204.03646.pdf

データセットアドレス:https://github.com/xujinglin/FineDiving

このデータセットは、オリンピック、ワールドカップ、世界選手権、およびヨーロッパ選手権からのダイビング競技のビデオを収集します。各競技ビデオは、すべてのアスリートのダイビング記録、さまざまな視点からのスローリプレイなど、豊富なコンテンツを提供します。

セマンティック構造と時間構造で編成されたきめ細かいビデオデータセットを構築します。各構造には2レベルの注釈が含まれています。

セマンティック構造の場合、アクションレベルのラベルはアスリートのアクションタイプを記述し、ステップレベルのラベルはプロセスの連続するステップのサブアクションタイプを記述します。各アクションプロセスの隣接するステップは異なるサブアクションタイプに属します。サブアクションタイプの組み合わせにより、アクションタイプが生成されます。時間的構造では、アクションレベルのラベルは、アスリートによって実行された完全なアクションインスタンスの時間的境界を特定します。このアノテーションプロセス中に、不完全なアクションインスタンスをすべて破棄し、遅い再生を除外します。ステップレベルのラベルは、アクションプロセスの連続するステップの開始フレームです。

da5d3b9ee124e3038f6f00291941ad90.png

PIAAデータベース

紙のアドレス:https://arxiv.org/abs/2203.16754

データセットアドレス:https://cv-datasets.institutecv.com/#/data-sets

パーソナライズされた画像の美的評価(PIAA)は、主観性が高いため、困難です。人々の美学は、画像の特徴や被写体の個性など、さまざまな要因に依存します。既存のPIAAデータベースは、注釈の多様性、特に分野の点で制限されており、PIAA研究に対する需要の高まりに対応できなくなりました。この難問に対処するために、パーソナライズされた画像の美学に関するこれまでで最も包括的な主観的研究を実施し、438の主題の注釈付き画像構成に関する31,220の画像で構成されるパーソナライズされた画像の美学の新しい属性豊富なデータベース(PARA)を紹介します。PARAには、9つの画像指向の客観的属性と4つの人間指向の主観的属性を含む豊富な注釈があります。

840521280da8c23470a1fa8790526d58.png

この記事は学術的な共有のみを目的としています。侵害がある場合は、連絡して記事を削除してください。

乾物のダウンロードと調査

舞台裏の返信:バルセロナ自治大学のコースウェア、外国の大学が数年間蓄積した高品質の3DVisonコースウェアをダウンロードできます

背景の返信:コンピュータービジョンの本、 3Dビジョンの分野の古典的な本のPDFをダウンロードできます

舞台裏の返信:3Dビジョンコース、 3Dビジョンの分野で優れたコースを学ぶことができます

コンピュータビジョンワークショップ公式ウェブサイト:3dcver.com

1.自動運転のためのマルチセンサーデータフュージョンテクノロジー

2.自動運転の分野での3D点群ターゲット検出のためのフルスタック学習ルート!(シングルモーダル+マルチモーダル/データ+コード)
3。視覚的な3D再構成を完全に理解する:主成分分析、コードの説明、最適化と改善
4.産業レベルの戦闘のための最初の国内点群処理コース
5.レーザービジョン-IMU-GPSフュージョンSLAMアルゴリズムの並べ替え
コード
の説明

9.構造化光3D再構成システムをゼロから構築する[理論+ソースコード+実践]

10.単眼深度推定法:アルゴリズムのソートとコードの実装

11.自動運転における深層学習モデルの実際の展開

12.カメラモデルとキャリブレーション(単眼+双眼+魚眼)

13.重い!クワッドコプター:アルゴリズムと実践

14. ROS2の開始から習得まで:理論と実践

15.中国での最初の3D欠陥検出チュートリアル:理論、ソースコード、実際の戦闘

重い!コンピュータビジョンワークショップ-ラーニングエクスチェンジグループが設立されました

コードをスキャンしてWeChatアシスタントを追加すると、3D Vision Workshop-Academic Paper Writing and Submission WeChat交換グループへの参加を申し込むことができます。このグループは、トップ会議、トップジャーナル、SCI、EIなどの執筆と提出の問題を交換することを目的としています。

同時に、サブディビジョン方向交換グループへの参加も申し込むことができます。現在、主にORB-SLAMシリーズのソースコード学習、3DビジョンCV&ディープラーニングSLAM3D再構築点群後処理自動運転、CV導入、3D測定、VR / AR、3D顔認識、医療画像、欠陥検出、歩行者再識別、ターゲットトラッキング、視覚的製品着陸、視覚的競争、ライセンスプレート認識、ハードウェア選択、深度推定、学術交流、求人検索交換およびその他のWeChatグループについては、次のWeChatアカウントとグループをスキャンしてください。備考:「研究の方向性+学校/会社+ニックネーム」。例:「3Dビジョン+上海嘉通大学+Jingjing」。フォーマットに従ってコメントしてください。そうでない場合、承認されません。追加が成功すると、研究の方向性に応じて、関連するWeChatグループが招待されます。元の提出物についてはお問い合わせください。

bef5858f62273ca170dafa2b3670cc6e.png

▲長押ししてWeChatグループを追加または投稿

5971d141181a6a6bdb0dc6dde4984863.png

▲公式アカウントをフォローするには長押し

エントリーから熟練した知識惑星までの3Dビジョン: 3Dビジョンの分野のビデオコース( 3D再構成シリーズ3Dポイントクラウドシリーズ構造化光シリーズハンドアイキャリブレーションカメラキャリブレーション、レーザー/ビジョンSLAM、自動運転など) 、知識ポイントの要約、エントリーと高度な学習ルート、最新の紙の共有、詳細な栽培のための質問応答、およびさまざまな大規模工場のアルゴリズムエンジニアからの技術ガイダンス。同時に、Planetは有名企業と協力して、3Dビジョン関連のアルゴリズム開発ジョブとプロジェクトドッキング情報をリリースし、テクノロジーと雇用を統合する熱狂的なファンのための集会エリアを作成します。4,000人近くのPlanetメンバーが共通の進歩を遂げ、より良いAIの世界を作成するための知識。惑星の入り口:

3Dビジョンのコアテクノロジーを学び、紹介をスキャンして表示し、3日以内に無条件の払い戻しを行います

c7c16368c2110a4b257fd0aa23b12a15.png

 サークルには高品質のチュートリアル資料があり、質問に答えて問題を効率的に解決するのに役立ちます

便利だと思いますので、いいねをして見てください〜

おすすめ

転載: blog.csdn.net/qq_29462849/article/details/124287665