PyTorch の torchvision に含まれるコンピューター ビジョン データ セット

目次

1.カルテック101

2.カルテック256

3. タイプ

4.cifar10

5.cifar100

6.街並み

7.ココ

8.エムニスト

9.フェイクデータ

10.ファッションMNIST

11.flickr8k

12.hmdb51

13.イメージネット

14.キネティクス400

15.キティ

16.クムニスト

17.イルサン

18.ムニスト

19.オムニグロット

20.フォトツアー

21.place365

22.qmnist

23.sbd

24.sbu

25.semeion

26.stl10

27、スヴン

28.ucf101

29.usps

30.voc

31.ワイドフェイス


1.カルテック101

torchvision.datasets.Caltech101(root: str, target_type: Union[List[str], str] = 'category', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

scipy パッケージを利用してラベル データをインポートする

root: データセットが保存されている場所

target_type: 文字列またはリストタグカテゴリ

変換: 画像のトランスフォーマー

target_transform: ラベルのトランスフォーマー

download: 指定された場所にデータセットが存在しない場合にデータセットをダウンロードするかどうか

Caltech-101 データセットは、101 のカテゴリーを持つ画像から構成されるデータセットで、主に物体認識や画像分類に使用されます。さまざまなカテゴリに 40 ~ 800 の画像があり、各画像のサイズは 300 * 200 ピクセルで、データ セットの発行者は対応するターゲットを使用できるようにマークしています。

2.カルテック256

torchvision.datasets.Caltech256(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

Caltech-256 データセットは Caltech-101 データセットの改良版であり、主に次の変更が加えられています。

a) カテゴリの数が 2 倍以上になりました。

b) カテゴリ内の画像の最小数が 31 から 80 に増加しました。

c) 画像の回転によって生じるアーティファクトを回避します。

d) バックグラウンドの除去をテストするために、新しいより大きなクラッター クラスが導入されました。

このデータセットは 256 のカテゴリと合計 20,607 枚の画像をカバーしています。

3. タイプ

torchvision.datasets.CelebA(root: str, split: str = 'train', target_type: Union[List[str], str] = 'attr', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

Split:train,valid,test,all 使用するデータセットの部分を選択します

CelebFaces (CelebA) データセットは、200,000 を超える有名人の画像を含む大規模な顔属性データセットであり、各画像には 40 の属性が注釈付けされています。このデータセット内の画像は、多数のポーズと背景をカバーしており、そのうち CelebA の注釈には 10,177 のアイデンティティ、202,599 のアイデンティティが含まれています顔の画像と 5 つのランドマークの場所。

4.cifar10

torchvision.datasets.CIFAR10(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

CIFAR-10 データセットは、マシン ビジョンの分野で使用される画像分類データ セットで、飛行機、車、鳥、猫、鹿、犬、カエル、馬、ボート、トラックなど 10 カテゴリーの 60,000 枚のカラー画像が含まれています。サイズは32*32です。

5.cifar100

torchvision.datasets.CIFAR100(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

CIFAR-100 データセットはマシン ビジョンの分野で使用される画像分類データ セットです。20 の主要カテゴリがあります。各主要カテゴリはサブカテゴリに分割され、合計 100 のサブカテゴリがあります。各サブカテゴリには 600 の画像が含まれます (トレーニング画像 500 枚、トレーニング画像 100 枚)テスト画像)、各画像には小さなカテゴリ ラベルと大きなカテゴリ ラベルがあります。

6.街並み

Cityscape パッケージに依存

torchvision.datasets.Cityscapes(root: str, split: str = 'train', mode: str = 'fine', target_type: Union[List[str], str] = 'instance', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

Cityscapes データセットには、50 の異なる街路シーンで記録されたビデオ シーケンスが含まれており、これには弱い注釈が付けられた 20,000 フレームと、高品質のピクセル レベルの注釈が付けられた 5,000 のフレームが含まれます。

このデータセットは、都市の街路シーンの意味的理解に焦点を当て、都市の街路シーンを意味的に理解するための視覚的アルゴリズムを評価することを目的としています。

  • ピクセルレベルおよびインスタンスレベルのセマンティックラベル。

  • 大量の(弱い)注釈付きデータの研究。

7.ココ

COCOパッケージに依存

torchvision.datasets.CocoCaptions(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

annfile: json アノテーション ファイル

torchvision.datasets.CocoDetection(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

COCO は、マシン ビジョンの分野でターゲットの検出とセグメンテーション、文字のキー ポイントの検出、塗りつぶしのセグメンテーション、および字幕の生成に使用される大規模な画像データ セットです。このデータセットはシーンの理解に焦点を当てており、画像内のターゲットは正確なセグメンテーションによって配置されます。

オブジェクト セグメンテーション、コンテキスト認識、スーパーピクセル セグメンテーションを特徴とするこのデータセットには、330,000 個の画像、150 万個のオブジェクト インスタンス、80 個のオブジェクト クラス、91 個のアイテム クラス、および 250,000 人のキーポイント人物が含まれています。

8.エムニスト

torchvision.datasets.EMNIST(root: str, split: str, **kwargs: Any)

詳しい紹介

EMNIST データセットの紹介_Chris_zhangrx のブログ - CSDN blogblog.csdn.net

9.フェイクデータ

torchvision.datasets.FakeData(size: int = 1000, image_size: Tuple[int, int, int] = (3, 224, 224), num_classes: int = 10, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, random_offset: int = 0)

パラメータ設定に基づいてランダムな PIL イメージを生成

size: 生成されるデータセットのサイズ

iamge_size: データセット内の画像のサイズ

num_class: 生成されたデータセットのカテゴリの数

10.ファッションMNIST

torchvision.datasets.FashionMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

10 種類の服、グレースケール画像、28*28

11.flickr8k

torchvision.datasets.Flickr8k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

データセットには 8,000 枚の画像が含まれており、それぞれの画像に、画像内のオブジェクトやイベントの内容説明を提供する 5 つの異なるキャプションが組み合わされています。

torchvision.datasets.Flickr30k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

12.hmdb51

torchvision.datasets.HMDB51(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)

動作認識ビデオデータセット

13.イメージネット

torchvision.datasets.ImageNet(root: str, split: str = 'train', download: Optional[str] = None, **kwargs: Any)

これは皆さんも知っているはずですよね?

14.キネティクス400

torchvision.datasets.Kinetics400(root, frames_per_clip, step_between_clips=1, frame_rate=None, extensions=('avi', ), transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0, _audio_channels=0)

動作認識ビデオデータセット

15.キティ

torchvision.datasets.Kitti(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None, download: bool = False)

KITTI はコンピュータ ビジョン アルゴリズムの評価データ セットであり、主に自動運転シナリオの関連テストに使用され、評価カテゴリには立体画像、オプティカル フロー、ビジュアル オドメトリ、3D オブジェクト検出、3D トラッキングなどが含まれます。 KITTI には、都市部、農村部、高速道路などのシーンで収集された実際の画像データが含まれており、各画像には最大 15 台の車両と 30 人の歩行者が含まれており、さまざまな程度のオクルージョンとトランケーションが含まれています。

データセットは、389 組のステレオ画像とオプティカル フロー マップ、39.2km の視覚測距シーケンス、および 200k を超える注釈付き 3D オブジェクト画像で構成され、10Hz でサンプリングおよび同期されます。元のデータセットは「道路」、「都市」に分割されています。 " , " カテゴリは「居住者」「キャンパス」「人物」の5つで、3D物体検出は乗用車、バン、トラック、歩行者、歩行者(座り)、自転車、路面電車、その他に分かれています。

16.クムニスト

torchvision.datasets.KMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

導入

機械学習データ セット - KMNIST データ セット_PRIS-SCMonkey のブログ - CSDN ブログ blog.csdn.net

古代日本語データセット

17.イルサン

torchvision.datasets.LSUN(root: str, classes: Union[str, List[str]] = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

LSUN データセットは、10 のシーン カテゴリと 20 のオブジェクト カテゴリを含む大規模な画像データセットで、合計約 100 万枚のラベル付き画像が含まれます。

18.ムニスト

torchvision.datasets.MNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

誰もがこれを知っているはずです。コンピューター ビジョンの分野における Hello ワードです。

19.オムニグロット

torchvision.datasets.Omniglot(root: str, background: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

手書き文字認識、1623 カテゴリ、カテゴリごとに 20 枚の画像

20.フォトツアー

torchvision.datasets.PhotoTour(root: str, name: str, train: bool = True, transform: Optional[Callable] = None, download: bool = False)

旅行写真データセット

21.place365

torchvision.datasets.Places365(root: str, split: str = 'train-standard', small: bool = False, download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, loader: Callable[[str], Any] = <function default_loader>)

Place365-Standard データセットは MIT によってリリースされており、シーンの分類に役立つデータセットです。データセットには、365 カテゴリのシーンからの 180 万枚のトレーニング写真が含まれています。

22.qmnist

torchvision.datasets.QMNIST(root: str, what: Optional[str] = None, compat: bool = True, train: bool = True, **kwargs: Any)

23.sbd

torchvision.datasets.SBDataset(root: str, image_set: str = 'train', mode: str = 'boundaries', download: bool = False, transforms: Optional[Callable] = None)

voc 内の 11355 個のラベル付きデータセット

24.sbu

torchvision.datasets.SBU(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = True)

25.semeion

torchvision.datasets.SEMEION(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = True)

26.stl10

torchvision.datasets.STL10(root: str, split: str = 'train', folds: Optional[int] = None, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

27、スヴン

torchvision.datasets.SVHN(root: str, split: str = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

28.ucf101

torchvision.datasets.UCF101(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)

29.usps

torchvision.datasets.USPS(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

30.voc

torchvision.datasets.VOCSegmentation(root: str, year: str = '2012', image_set: str = 'train', download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None) torchvision.datasets.VOCDetection(root: str, year: str = '2012', image_set: str = 'train', download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

vocデータセット

31.ワイドフェイス

torchvision.datasets.WIDERFace(root: str, split: str = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

 

おすすめ

転載: blog.csdn.net/Talantfuck/article/details/124565872