リソース インベントリ 9 つの古典的なビジョン言語マルチモーダル事前トレーニング データセット

ChatGPT が社会や学術界でホットスポットを引き起こした後、「ビッグ モデル」と「マルチモーダル」も検索量が増加して人気のワードになりました。これらは、人工知能に対する幅広い世間の注目を反映しています。

実際、人工知能の進歩は、特定のタスクに関する深層学習手法の進歩と切り離すことができません。その中でも、特に事前トレーニングタスクの方法は、人工知能の進歩を促進する上で重要な役割を果たします。さまざまな事前トレーニング タスクにおいて、モデルのパフォーマンスは事前トレーニング データセットの品質に大きく影響されます。

このうち、一般的なマルチモーダル知識を取得するために、ビジョン言語事前トレーニング タスクでは主に弱いラベルを持つビジョン言語ペアをモデルのトレーニングに使用します。画像テキストタスクには、主に画像とタイトル、コンテンツの説明、キャラクターのアクションの説明が含まれます。

記事「A Review of Visual Language Multimodal Pre-training」[1] に基づいて、この記事では、一般的に使用される一連の事前トレーニング データセットと OpenDataLab 上のダウンロード リンクを提供します。

SBU データセット

SBU (Ordonez et al.、2011) データセット:
SBU は、初期の大規模画像記述データセットです。データを収集するときは、まずオブジェクト、属性、アクション、アイテム、シーンのクエリ単語を使用して写真共有 Web サイト Flickr にクエリを実行し、関連するテキストを含む多数の写真を取得します。次に、説明の関連性と視覚的な説明に従ってフィルタリングし、少なくとも 2 つの A を保持します。提案された用語は説明として使用されます。

ダウンロードアドレス:
https://opendatalab.org.cn/SBU_Captions_Dataset/download

COCO データセット

COCO (Lin et al.、2014) データセット:
COCO は、オブジェクトの検出、セグメンテーション、および説明のための大規模で豊富なデータセットです。データ セットはシーンの理解を目的としており、主に複雑な日常シーンから傍受されています。画像内のターゲットは正確なセグメンテーションによって調整されています。これには 91 の一般的なオブジェクト カテゴリが含まれており、そのうち 82 カテゴリには 5,000 以上のラベル インスタンスがあり、合計 328,000 を含みます画像と 250 万のラベル付きインスタンス。COCO キャプション (Chen et al.、2015) は、COCO 画像データに基づいて画像の説明に手動で注釈を付けることによって取得されます。

ダウンロードアドレス:
https://opendatalab.org.cn/COCO_2014/download

概念的なキャプション データセット

Conceptual Captions は、インターネットから取得したグラフィック データセットです。まず、形式、サイズ、内容、条件に従って画像とテキストをフィルタリングし、テキストの内容が画像の内容とよりよく一致するかどうかに応じて画像とテキストのペアをフィルタリングし、Google Knowledge Graph を使用して外部情報ソースを使用するテキストの部分を変換します。最後に手動でサンプリング検査と洗浄を行って、最終データセットを取得します。Changpinyo et al. (2021) は、Conceptual Captions に基づいてデータセットのサイズを 330 万から 1,200 万に増加し、Conceptual12M を提案しました。

ダウンロードアドレス:
https://opendatalab.org.cn/Conceptual_Captions/download

HowTo100M データセット

HowTo100M のコンテンツは複雑なタスクの説明ビデオです。そのナラティブのほとんどは観察された視覚的な内容を説明でき、主要な動詞は現実世界と対話する視覚的なタスクに限定されています。字幕は主に ASR によって生成され、字幕の各行を説明として受け取り、その行に対応する時間間隔でビデオ クリップと組み合わせます。How To100M は、以前のビデオ事前トレーニング データセットよりも数桁大きく、合計ビデオ期間は 15 年、平均期間は 6.5 分です。平均的なビデオは 110 組のクリップとタイトルのペアを生成し、その平均期間はクリップの長さは 4 秒、タイトルの平均長は 4 ワードです。

ダウンロードアドレス:
https://opendatalab.org.cn/HowTo100M/download

YT-Temporal-180M データセット

YT-Temporal-180M がカバーするビデオの種類は豊富で、HowTo100M (Miech et al., 2019) の教育ビデオ、VLOG (Fouhey et al., 2018) の日常生活の記録の短いビデオ、自動生成されたホットトピックなどがあります。 「科学」「ホームセンター」などのYoutubeのおすすめ動画。合計 2,700 万件の候補データについて、次の条件に従ってビデオを削除します。
1) 英語の ASR テキスト記述コンテンツが含まれていない。

2) 継続時間が 20 分を超える場合。

3) 視覚的には、ビデオ ゲームのレビューなどのコンテンツ カテゴリが見つかりません。

4) 画像分類器を使用してビデオのサムネイルを検出し、ターゲット オブジェクトが含まれる可能性が低いビデオを削除します。最後に、ASR で生成されたテキストに句読点を追加するためにシーケンス間モデルも適用されます。

ダウンロードアドレス:
https://opendatalab.com/YT-Temporal-180M

WebVid-2M データセット

ASR によって生成された文は通常不完全で句読点がないため、さらに重要なことに、文は画像コンテンツと完全に一致していない可能性があるため、Bain et al. 語彙が豊富で、整形式で、ビデオの視覚コンテンツと一致しています。 WebVid-2M (Bain et al., 2021) データセットが提案されています。

ダウンロードアドレス:
https://opendatalab.com/WebVid-2M

VQA、VQAv2.0、GQA データセット

一部の研究(Tan and Bansal、2019; Cho et al.、2021; Zhang et al.、2021a)は、VQA、VQAv2.0、GQA などの質問応答データセットから事前トレーニング データを取得します。使用時にはテストデータは含まれておらず、一般的には質問文と回答文をテキスト入力とし、画像と絵文字のペアを形成してモダリティ間の事前学習を行います。

ダウンロードリンク:

https://opendatalab.com/VQA

https://opendatalab.org.cn/VQA-v2.0/download

https://opendatalab.org.cn/GQA/download

引用

[1] Zhang Haoyu、Wang Tianbao、Li Mengze、Zhao Zhou、Pu Shiliang、Wu Fei. 視覚言語のためのマルチモーダル事前トレーニングのレビュー [J]. Chinese Journal of Image and Graphics, 2022, 27(09): 2652 -2682 。

-END-
その他のデータセットについては、OpenDataLab の公式 Web サイトをご覧ください: https://opendatalab.org.cn/

必要なデータセットがない場合はどうすればよいですか?

プラットフォーム上で必要なデータセット リソースが見つからない場合は、以下の QR コードをスキャンしてニーズを記録してください。適切なサポートを提供できるよう最善を尽くします。

おすすめ

転載: blog.csdn.net/OpenDataLab/article/details/129837847