この記事は、「新人クリエーションセレモニー」イベントに参加し、一緒にゴールドクリエーションの道を歩み始めました。
1はじめに
私が最初にディープラーニングを始めたとき、いくつかの公開データセットを使用することは避けられませんでしたが、今は何もすることがなく、いくつかの古典的なデータセットをすばやくダウンロードする方法を記録しています。公式文書から学ぶことは、一部の大牛によく推奨される方法なので、このブログの公式文書から学び始めます。
私はCVディレクションを行っているので、例としてTorchVisionライブラリを使用します。公式サイトより:This library is part of the [PyTorch](http://pytorch.org/) project. PyTorch is an open source machine learning framework.
The [torchvision] package consists of popular datasets, model architectures, and common image transformations for computer vision.
一般的なCIFAR、COCO、MINSTなど、多くの人気のあるデータセットを含め、誰もが精通している必要があります。プロセスを記録するために、しばらくしてCIFARを例として取り上げます。
2.公式文書の読み方
-
CIFAR
まず、このクラスのドキュメントを見てみましょう。パラメータ:
root:ダウンロードしたデータセットを配置するディレクトリを示します
root (string): Root directory of dataset where directory ``cifar-10-batches-py`` exists or will be saved to if download is set to True. 复制代码
トレーニング:トレーニングデータセットかどうか
train (bool, optional): If True, creates dataset from training set, otherwise creates from test set. 复制代码
変換:画像を前処理して変換を返す関数
A function/transform that takes in an PIL image and returns a transformed version. 复制代码
ダウンロード:データセットをダウンロードするかどうか、
download (bool, optional):If true, downloads the dataset from the internet and puts it in root directory. If dataset is already downloaded, it is not downloaded again. 复制代码
3.ハンズオンコード
-
サンプルコード
# 导入torchvision包 import torchvision # 对原始图像进行数据处理的函数 dataset_transform = torchvision.transforms.Compose([ torchvision.transforms.ToTensor() ]) # 生成训练数据集和测试数据集 # 训练数据集 存放在根目录的dataset文件夹下,作为训练数据集,并下载 train_set = torchvision.datasets.CIFAR10(root="./dataset", train=True, transform=dataset_transform, download=True) # 测试数据集 存放在根目录的dataset文件夹下,不作为训练数据集,并下载 test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transform, download=True) print(test_set[0]) 复制代码
-
次に、右クリックして実行およびダウンロードします
データセットがダウンロードされていることがわかりますが、toronto.eduからダウンロードされているため、速度が非常に遅くなっています。より高速な方法を教えてください。操作を終了し、このリンクをコピーして、Thunderでダウンロードすると、すぐに問題なく動作します。次に、ダウンロード
.gz
したファイルを解凍して、dataset
作成したディレクトリに配置します。 -
再実行すると、データセットを正常に使用できます。
4.視覚化する方法
視覚化に使用tensorboard
しました。興味があれば、テンソルボードライブラリを調べることができます。
import torchvision
from torch.utils.tensorboard import SummaryWriter
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
dataset_transform = torchvision.transforms.Compose([
torchvision.transforms.ToTensor()
])
# 返回类型
train_set = torchvision.datasets.CIFAR10(root="./dataset", train=True, transform=dataset_transform, download=True)
test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transform, download=True)
print(test_set[0])
writer = SummaryWriter("p10")
for i in range(10):
img, target = test_set[i]
writer.add_image("test_set", img, i)
writer.close()
复制代码
あなたはあなたのブラウザで画像を見ることができます:
姿勢到问题:ssl.SSLCertVerificationError:[SSL:CERTIFICATE_VERIFY_FAILED]証明書の検証に失敗しました:証明書の有効期限が切れています(_ssl.c:1131)
ダウンロードで同じ問題が発生した場合は、sslをインポートする必要があります。
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
复制代码
最後の言葉:書くのは簡単ではありません、あなたがそれを好きかあなたを助けるなら、好き+フォローまたはお気に入りを忘れないでください〜