ディープラーニングの初心者、一般的な公開データセットをダウンロードして使用する方法は?

この記事は、「新人クリエーションセレモニー」イベントに参加し、一緒にゴールドクリエーションの道を歩み始めました。

1はじめに

私が最初にディープラーニングを始めたとき、いくつかの公開データセットを使用することは避けられませんでしたが、今は何もすることがなく、いくつかの古典的なデータセットをすばやくダウンロードする方法を記録しています。公式文書から学ぶことは、一部の大牛によく推奨される方法なので、このブログの公式文書から学び始めます。

私はCVディレクションを行っているので、例としてTorchVisionライブラリを使用します。公式サイトより:This library is part of the [PyTorch](http://pytorch.org/) project. PyTorch is an open source machine learning framework.

The [torchvision] package consists of popular datasets, model architectures, and common image transformations for computer vision.

一般的なCIFAR、COCO、MINSTなど、多くの人気のあるデータセットを含め、誰もが精通している必要があります。画像-20211112215757902プロセスを記録するために、しばらくしてCIFARを例として取り上げます。

2.公式文書の読み方

  1. CIFARまず、このクラスのドキュメントを見てみましょう。

    画像-20211112220405128

    パラメータ:

    root:ダウンロードしたデータセットを配置するディレクトリを示します

    root (string): Root directory of dataset where directory ``cifar-10-batches-py`` exists or will be saved to if download is set to True.
    复制代码

    トレーニング:トレーニングデータセットかどうか

    train (bool, optional): If True, creates dataset from training set, otherwise creates from test set.
    复制代码

    変換:画像を前処理して変換を返す関数

    A function/transform that takes in an PIL image and returns a transformed version.
    复制代码

    ダウンロード:データセットをダウンロードするかどうか、

    download (bool, optional):If true, downloads the dataset from the internet and puts it in root directory. If dataset is already downloaded, it is not downloaded again.
    复制代码

3.ハンズオンコード

  1. サンプルコード

    # 导入torchvision包
    import torchvision
    
    # 对原始图像进行数据处理的函数
    dataset_transform = torchvision.transforms.Compose([
        torchvision.transforms.ToTensor()
    ])
    
    # 生成训练数据集和测试数据集
    # 训练数据集 存放在根目录的dataset文件夹下,作为训练数据集,并下载
    train_set = torchvision.datasets.CIFAR10(root="./dataset", train=True, transform=dataset_transform, download=True)
    # 测试数据集 存放在根目录的dataset文件夹下,不作为训练数据集,并下载
    test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transform, download=True)
    
    print(test_set[0])
    复制代码
  2. 次に、右クリックして実行およびダウンロードします

    画像-20211113095342812

    データセットがダウンロードされていることがわかりますが、toronto.eduからダウンロードされているため、速度が非常に遅くなっています。より高速な方法を教えてください。操作を終了し、このリンクをコピーして、Thunderでダウンロードすると、すぐに問題なく動作します。次に、ダウンロード.gzしたファイルを解凍して、dataset作成したディレクトリに配置します。

    画像-20211113100111844
  3. 再実行すると、データセットを正常に使用できます。

    画像-20211113100435809

4.視覚化する方法

視覚化に使用tensorboardしました。興味があれば、テンソルボードライブラリを調べることができます。

import torchvision
from torch.utils.tensorboard import SummaryWriter
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

dataset_transform = torchvision.transforms.Compose([
    torchvision.transforms.ToTensor()
])

# 返回类型
train_set = torchvision.datasets.CIFAR10(root="./dataset", train=True, transform=dataset_transform, download=True)
test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transform, download=True)

print(test_set[0])
writer = SummaryWriter("p10")
for i in range(10):
    img, target = test_set[i]
    writer.add_image("test_set", img, i)

writer.close()
复制代码

あなたはあなたのブラウザで画像を見ることができます:

画像-20211113100721223

姿勢到问题:ssl.SSLCertVerificationError:[SSL:CERTIFICATE_VERIFY_FAILED]証明書の検証に失敗しました:証明書の有効期限が切れています(_ssl.c:1131)

ダウンロードで同じ問題が発生した場合は、sslをインポートする必要があります。

import ssl
ssl._create_default_https_context = ssl._create_unverified_context
复制代码

最後の言葉:書くのは簡単ではありません、あなたがそれを好きかあなたを助けるなら、好き+フォローまたはお気に入りを忘れないでください〜

おすすめ

転載: juejin.im/post/7086664505731579917