fast.ai 深度学习笔记:第一部分第一课

原文:Deep Learning 2: Part 1 Lesson 1

作者:Hiromi Suenaga

入门 [0:00]:

  • 为了训练神经网络,你肯定需要图形处理单元(GPU) - 特别是 NVIDIA GPU,因为它是唯一支持 CUDA(几乎所有深度学习库和从业者都使用的语言和框架)的设备。
  • 租用 GPU 有几种方法:Crestle [04:06] ,Paperspace [06:10]

Jupyter 笔记本和猫狗识别的介绍 [12:39]

  • 你可以通过选择它并按下shift+enter来运行单元格(你可以按住shift并多次按enter键来继续下拉单元格),或者你可以单击顶部的“运行”按钮。单元格可以包含代码,文本,图片,视频等。
  • Fast.ai 需要 Python 3
%reload_ext autoreload  
%autoreload 2  
%matplotlib inline 
# This file contains all the main external libs we'll use  
from fastai.imports import * 
from fastai.transforms import *  
from fastai.conv_learner import *  
from fastai.model import * from fastai.dataset import * from fastai.sgdr import * from fastai.plots import * 
PATH = "data/dogscats/"  
sz=224 

先看图片 [15:39]

!ls {PATH} 
models sample test1 tmp train valid

  • !表明使用 bash(shell)而不是 python
  • 如果你不熟悉训练集和验证集,请查看 Practical Machine Learning 课程(或阅读 Rachel 的博客
!ls {PATH}valid 
cats dogs

files = !ls {PATH}valid/cats | head  files 
['cat.10016.jpg',  'cat.1001.jpg',  'cat.10026.jpg',  'cat.10048.jpg',  'cat.10050.jpg', 'cat.10064.jpg', 'cat.10071.jpg', 'cat.10091.jpg', 'cat.10103.jpg', 'cat.10104.jpg'] 
  • 此文件夹结构是共享和提供图像分类数据集的最常用方法。 每个文件夹都会告诉你标签(例如dogscats)。
img = plt.imread(f' {PATH} valid/cats/ {files[0]} ')  plt.imshow(img); 
 
image
  • f'{PATH}valid/cats/{files[0]}' - 这是一个 Python 3.6 格式化字符串,可以方便地格式化字符串。
img.shape 
(198, 179, 3)
img[:4,:4] 
array([[[ 29, 20, 23],  [ 31, 22, 25],  [ 34, 25, 28],  [ 37, 28, 31]], 
[[ 60, 51, 54],  [ 58, 49, 52],  [ 56, 47, 50],  [ 55, 46, 49]], 
[[ 93, 84, 87],  [ 89, 80, 83],  [ 85, 76, 79],  [ 81, 72, 75]], 
[[104, 95, 98],  [103, 94, 97],  [102, 93, 96],  [102, 93, 96]]], dtype=uint8) 
  • img是一个三维数组(又名 3 维张量)
  • 这三个维度(例如[29, 20, 23])表示 0 到 255 之间的红绿蓝像素值
  • 我们的想法是利用这些数字来预测这些数字是代表猫还是狗,基于查看猫和狗的大量图片。
  • 这个数据集来自 Kaggle 竞赛,当它发布时(早在 2013 年),最先进的技术准确率为 80%。

让我们训练一个模型 [20:21]

以下是训练模型所需的三行代码:

data = ImageClassifierData.from_paths(PATH, tfms=tfms_from_model(resnet34, sz))  
learn = ConvLearner.pretrained(resnet34, data, precompute= True )  
learn.fit (0.01, 3) 
[ 0. 0.04955 0.02605 0.98975]  [ 1. 0.03977 0.02916 0.99219] [ 2. 0.03372 0.02929 0.98975] 
  • 这将执行 3 个迭代,这意味着它将三次查看整个图像集。
  • 输出中的三个数字中的最后一个是验证集上的准确度。
  • 前两个是训练集和验证集的损失函数值(在这种情况下是交叉熵损失)。
  • 开始(例如,1.)是迭代数。
  • 我们通过 3 行代码在 17 秒内达到了 ~99% (这将在 2013 年赢得 Kaggle 比赛)![21:49]
  • 很多人都认为深度学习需要大量的时间,大量的资源和大量的数据 - 一般来说,这不是真的!

阅读更多

猜你喜欢

转载自www.cnblogs.com/wizardforcel/p/9806433.html