30,000 人以上のユーザーによって投票され、コレクションに推奨される 6 つの古典的な機械学習データセット

内容概要:画像認識、機械翻訳、リモートセンシング画像などのスーパーニューラルダウンロードランキングを多数収録した6つのデータセットをまとめています。これらのデータセットは高品質かつ大量のデータであり、人気認定を受けて収集およびコード化する価値があります。
キーワード: データセット 機械翻訳 マシンビジョン

データセットは機械学習モデルトレーニングの基礎であり、高品質な公開データセットはモデルトレーニングの効果と研究結果の信頼性にとって非常に重要です。

HyperAI は、その発表以来、データ サイエンスの専門家に多数の高品質の公開データセットを提供してきました。今回のコンテンツ共有では、人気の高い 6 つのデータセットを選別し、合計ダウンロード数は 32,569 回に達しました。これらのデータセットが大多数の開発者にさらに役立つことを願っています~

注: この記事で整理されているデータセットはすべて、データ サイエンティストにサービスを提供する Web サイト - super nerve
https://hyper.ai/datasetsからのものです。

No. 6: Tanks Temple 3D 復元データセット
ここに画像の説明を挿入

ここに画像の説明を挿入

Tanks Temple 画像データセットは、研究者が画像を収集し、画像に基づいて 3D 再構成を実行できる高解像度ビデオを提供します。データセットにはトレーニングデータとテストデータの2種類が含まれており、テストデータは中級グループと上級グループに分かれています。

No. 5: DOTA 航空画像データセット
ここに画像の説明を挿入

ここに画像の説明を挿入

DOTA の正式名称は、A Large-scale Dataset for Object DeTection in Aerial Images で、2,806 枚の航空画像を含む画像データセットで、航空画像内の物標の検出、画像内の物体の発見と評価に使用されます。

これらの画像ソースには、さまざまなセンサーやプラットフォームが含まれます。各画像のピクセル サイズは800 800 ~ 4000 4000の範囲で、さまざまなスケール、方向、形状のオブジェクトが含まれています。

以前の更新については、こちらをご覧ください:
DOTA データセット: 2,806 個のリモート センシング画像、約 190,000 個のラベル付きインスタンス

No. 4: VGG-Face2 顔認識データセット
ここに画像の説明を挿入

ここに画像の説明を挿入

VGG-Face2 は、合計 9131 人の顔データを含む顔画像データセットであり、画像はすべて Google の画像検索からのものです。データセット内の人々は、ポーズ、年齢、人種、職業が大きく異なります。このデータセットは、オックスフォード大学工学部の Visual Geometry Group によって 2015 年にリリースされ、関連論文には「Deep Face Recognition」などがあります。

第3位:UCAS-AODリモートセンシング画像データセット

ここに画像の説明を挿入

ここに画像の説明を挿入

UCAS-AOD は、航空機および車両検出用のリモート センシング画像データセットです。このデータセットは、2014 年に国立科学技術大学によって初めて公開され、2015 年に補足されました。関連論文には、「深層畳み込みニューラル ネットワークを使用した航空画像における方向性ロバスト オブジェクト検出」などがあります。

No. 2: OpenMantra マンガ機械翻訳データセット

ここに画像の説明を挿入

ここに画像の説明を挿入

OpenMantra は、日本のマンガの機械翻訳評価データセットで、5 つの異なるスタイル (ファンタジー、ロマンス、バトル、ミステリー、日常) のマンガが含まれています。このデータセットには、東京大学マントラチームが公開した合計1593文、848枚の場面写真、214ページのマンガが含まれている。

前回のニュースレターはこちら:
マンガ翻訳、単語埋め込みAI、東大論文がAAAI'21に掲載

No. 1: ImageNet 10 画像認識データセット
ここに画像の説明を挿入

ここに画像の説明を挿入

ImageNet は、スタンフォード大学の Li Feifei 教授らが作成した、現在世界最大の画像認識データベースです。主にマシンビジョンの分野で画像分類と物体検出に使用されます。

データセットは WordNet 階層に従って編成されており、各ノード (カテゴリとも呼ばれます) は数百、場合によっては数千の画像で構成されています。データセットには、合計 22,000 の画像カテゴリと約 1,500 万枚の画像が含まれています。

前回のニュースレターをご覧ください:
この決定により、Li Feifei は AI アリーナの女王になりました

上記は、この号で推奨される 6 つの hyper.ai 高頻度ダウンロード データセットです。その他のデータ サイエンスの高品質パブリック データセットについては、次のリンクにアクセスしてダウンロードできます: https://hyper.ai/datasets

- 以上 -

おすすめ

転載: blog.csdn.net/HyperAI/article/details/129122998