1. Pytorchの基礎トレーニング
前のセクションは、基本的なビデオと AI、およびプロセスとの対話についてでした(2) pytorch は、独自のデータセットを最小限にトレーニングし、それを認識しました.
前のセクションに続いて、転移学習を使用して独自のデータセットをトレーニングし、ネットワークを保存し、読み込みを開始しましたネットワークに接続して認識します。
2. pytorchはresnet18をロードします
RetNet ネットワークの基礎となっているのは残差ネットワークであり、その元のアーキテクチャは ResNet であり、その名前が示すように、ネットワークの深さは 18 層です。プーリング、アクティベーション、線形を含み、バッチ正規化、プーリングを除く、なぜ resnet18 をロードするのですか? pytorch では、確立されたモデルを使用して出力を微調整できるため、torchvision が提供する ImageNet で事前トレーニングされた画像分類モデルを使用して、自分で収集した画像データセットで深層学習モデルをトレーニングできます。これにより、微調整モデルを使用し、最終的な resnet18 モデル出力層がリセットされ、転移学習が達成されるため、時間を大幅に節約できます。
2.1 データ標準化処理の標準化
定義:データの標準化処理:transforms.Normalize()
データの標準化、一般的には平均値(mean)は0、標準偏差(std)は1です 簡単
に言うと、チャネルごとにデータを計算し、各チャネルのデータをまず分散と平均値を計算し、各チャネルの各データから平均値を減算し、それを分散で割って正規化された結果を取得します。正規化後、データは活性化関数への応答性が向上し、データの表現力が向上し、勾配爆発や勾配消失の発生が減少します。
from __future__ import print_function, division
import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import torch.backends.cudnn as cudnn
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy
#通过设置让内置的cuDNN的auto-tuner自动寻找最适合当前配置的高效算法,来达到优化运行效率的问题
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
cudnn.benchmark = True
plt.ion() # interactive mode 交互模式
#定义三个全局变量
dataloaders=None
dataset_sizes =None
class_names = None
正規化関数を定義します。中の値はresnetネットワークの正規化値です。何気なく書いたものではありません。
#标准化函数
data_transforms = {
'train': transforms.Compose([
transforms.RandomResizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
]),
'val': transforms.Compose([
transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
]),
}
2.2 トレーニング機能
次に、パラメータについて説明したトレーニング関数を作成します。
def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
""" 训练模型,并返回在最佳模型
参数:
- model(nn.Module): 要训练的模型
- criterion: 损失函数
- optimizer(optim.Optimizer): 优化器
- scheduler: 学习率调度器
- num_epochs(int): 最大 epoch 数
返回:
- model(nn.Module): 最佳模型
- best_acc(float): checkpoint最好准确率
"""
since = time.time()
best_model_wts = copy.deepcopy(model.state_dict())
best_acc = 0.0
for epoch in range(num_epochs):
print(f'Epoch {
epoch}/{
num_epochs - 1}')
print('-' * 10)
# 训练集和验证集交替进行前向传播
for phase in ['train', 'val']:
if phase == 'train':
model.train() # 设置为训练模式,可以更新网络参数
else:
model.eval() # 设置为预估模式,不可更新网络参数
running_loss = 0.0
running_corrects = 0
# 遍历数据集
for inputs, labels in dataloaders[phase]:
global device
inputs = inputs.to(device)
labels = labels.to(device)
# 清空梯度,避免累加了上一次的梯度
optimizer.zero_grad()
with torch.set_grad_enabled(phase == 'train'):
# 正向传播
outputs = model(inputs)
_, preds = torch.max(outputs, 1)
loss = criterion(outputs, labels)
# 反向传播且仅在训练阶段进行优化
if phase == 'train':
loss.backward() # 反向传播
optimizer.step()
# 统计loss、准确率
running_loss += loss.item() * inputs.size(0)
running_corrects += torch.sum(preds == labels.data)
if phase == 'train':
scheduler.step()
epoch_loss = running_loss / dataset_sizes[phase]
epoch_acc = running_corrects.double() / dataset_sizes[phase]
print(f'{
phase} Loss: {
epoch_loss:.4f} Acc: {
epoch_acc:.4f}')
# 发现了更优的模型,记录起来
if phase == 'val' and epoch_acc > best_acc:
best_acc = epoch_acc
best_model_wts = copy.deepcopy(model.state_dict())
print()
time_elapsed = time.time() - since
print(f'Training complete in {
time_elapsed // 60:.0f}m {
time_elapsed % 60:.0f}s')
print(f'Best val Acc: {
best_acc:4f}')
# 加载训练的最好的模型
model.load_state_dict(best_model_wts)
return model
3. データセットの読み込みと配置
データ ディレクトリの下に 2 つのディレクトリを配置します。1 つは train、もう 1 つは val です。これらは明らかにトレーニング セットと検証セットです。アリ、ミツバチ、
エンジニアリング車両の 3 つのカテゴリがあります。エンジニアリング車両は前の記事の内容を使用します。 。
工事車両のイメージはこんな感じです、置くだけです、検証セットも同じです、
コード一覧は以下の通りです。
from __future__ import print_function, division
import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import torch.backends.cudnn as cudnn
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy
#通过设置让内置的cuDNN的auto-tuner自动寻找最适合当前配置的高效算法,来达到优化运行效率的问题
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
cudnn.benchmark = True
plt.ion() # interactive mode 交互模式
dataloaders=None
dataset_sizes =None
class_names = None
def imshow(inp, title=None):
# 可视化一组 Tensor 的图片
inp = inp.numpy().transpose((1, 2, 0))
mean = np.array([0.485, 0.456, 0.406])
std = np.array([0.229, 0.224, 0.225])
inp = std * inp + mean
inp = np.clip(inp, 0, 1)
plt.imshow(inp)
if title is not None:
plt.title(title)
plt.pause(0.001) # 暂停一会儿,为了将图片显示出来
def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
""" 训练模型,并返回在验证集上的最佳模型和准确率
Args:
- model(nn.Module): 要训练的模型
- criterion: 损失函数
- optimizer(optim.Optimizer): 优化器
- scheduler: 学习率调度器
- num_epochs(int): 最大 epoch 数
Return:
- model(nn.Module): 最佳模型
- best_acc(float): 最佳准确率
"""
since = time.time()
best_model_wts = copy.deepcopy(model.state_dict())
best_acc = 0.0
for epoch in range(num_epochs):
print(f'Epoch {
epoch}/{
num_epochs - 1}')
print('-' * 10)
# 训练集和验证集交替进行前向传播
for phase in ['train', 'val']:
if phase == 'train':
model.train() # 设置为训练模式,可以更新网络参数
else:
model.eval() # 设置为预估模式,不可更新网络参数
running_loss = 0.0
running_corrects = 0
# 遍历数据集
for inputs, labels in dataloaders[phase]:
global device
inputs = inputs.to(device)
labels = labels.to(device)
# 清空梯度,避免累加了上一次的梯度
optimizer.zero_grad()
with torch.set_grad_enabled(phase == 'train'):
# 正向传播
outputs = model(inputs)
_, preds = torch.max(outputs, 1)
loss = criterion(outputs, labels)
# 反向传播且仅在训练阶段进行优化
if phase == 'train':
loss.backward() # 反向传播
optimizer.step()
# 统计loss、准确率
running_loss += loss.item() * inputs.size(0)
running_corrects += torch.sum(preds == labels.data)
if phase == 'train':
scheduler.step()
epoch_loss = running_loss / dataset_sizes[phase]
epoch_acc = running_corrects.double() / dataset_sizes[phase]
print(f'{
phase} Loss: {
epoch_loss:.4f} Acc: {
epoch_acc:.4f}')
# 发现了更优的模型,记录起来
if phase == 'val' and epoch_acc > best_acc:
best_acc = epoch_acc
best_model_wts = copy.deepcopy(model.state_dict())
print()
time_elapsed = time.time() - since
print(f'Training complete in {
time_elapsed // 60:.0f}m {
time_elapsed % 60:.0f}s')
print(f'Best val Acc: {
best_acc:4f}')
# 加载训练的最好的模型
model.load_state_dict(best_model_wts)
return model
def visualize_model(model, num_images=6):
was_training = model.training
model.eval()
images_so_far = 0
fig = plt.figure()
with torch.no_grad():
for i, (inputs, labels) in enumerate(dataloaders['val']):
global device
inputs = inputs.to(device)
labels = labels.to(device)
outputs = model(inputs)
_, preds = torch.max(outputs, 1)
for j in range(inputs.size()[0]):
images_so_far += 1
ax = plt.subplot(num_images//2, 2, images_so_far)
ax.axis('off')
ax.set_title(f'predicted: {
class_names[preds[j]]}')
imshow(inputs.cpu().data[j])
if images_so_far == num_images:
model.train(mode=was_training)
return
model.train(mode=was_training)
def main():
# 在训练集上:扩充、归一化
# 在验证集上:归一化
data_transforms = {
'train': transforms.Compose([
transforms.RandomResizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
]),
'val': transforms.Compose([
transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
]),
}
data_dir = './data'
image_datasets = {
x: datasets.ImageFolder(os.path.join(data_dir, x),
data_transforms[x])
for x in ['train', 'val']}
global dataloaders
dataloaders = {
x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,
shuffle=True, num_workers=4)
for x in ['train', 'val']}
global dataset_sizes
dataset_sizes = {
x: len(image_datasets[x]) for x in ['train', 'val']}
global class_names
class_names = image_datasets['train'].classes
print(class_names)
# 获取一批训练数据
inputs, classes = next(iter(dataloaders['train']))
# 批量制作网格
out = torchvision.utils.make_grid(inputs)
imshow(out, title=[class_names[x] for x in classes])
model = models.resnet18(pretrained=True) # 加载预训练模型
for param in model.parameters():
param.requires_grad = False
num_ftrs = model.fc.in_features # 获取低级特征维度
model.fc = nn.Linear(num_ftrs, 3) # 替换新的输出层
model = model.to(device)
# 交叉熵作为损失函数
criterion = nn.CrossEntropyLoss()
# 所有参数都参加训练
optimizer_ft = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
# 每过 7 个 epoch 将学习率变为原来的 0.1
scheduler = optim.lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)
model_ft = train_model(model, criterion, optimizer_ft, scheduler, num_epochs=3) # 开始训练
visualize_model(model_ft)
PATH = './test.pth'
torch.save(model_ft.state_dict(), PATH)
if __name__== "__main__" :
main()
4. 電話のかけ方
先ほど pth ファイルを保存しましたが、実際には state_dict を使用しました。これはモデルの直接保存とは異なります。
import torch
from PIL import Image
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
from torchvision import models
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
PATH = './test.pth'
transform = transforms.Compose(
[transforms.Resize((256, 256)),transforms.ToTensor(),
transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
model = models.resnet18(pretrained=True) # 加载预训练模型
num_ftrs = model.fc.in_features # 获取低级特征维度
model.fc = nn.Linear(num_ftrs, 3) # 替换新的输出层
print(device)
model = model.to(device)
model.load_state_dict(torch.load(PATH))
model.eval()
img = Image.open("./ant.jpg") .convert('RGB')
img = transform(img)
img = img.unsqueeze(0)
img = img.to(device)
with torch.no_grad():
outputs = model(img)
_, predicted = torch.max(outputs.data, 1)
print("the test img lable is ",predicted)
画像を読み込む場合、通常、画像には幅、高さ、カラー チャネル数の 3 つの次元が含まれます。白黒画像の場合、カラー チャネルの数は 1 つ、カラー画像の場合、3 つのカラー チャネル (赤、緑、青、RGB) があります。したがって、画像をロードしてテンソルとして保存すると、次元の順序は [チャネル、高さ、幅] になります。2 次元の畳み込みニューラル ネットワークの場合、3 次元のデータ量は対応できません。深い畳み込みネットワークでは、データはバッチで処理されます。畳み込みニューラル ネットワークは、一度に 1 つの画像を処理するのではなく、N 枚の画像を同時に並列処理します。この一連の画像をバッチと呼びます。したがって、寸法 [C, H, W] ではなく、[N, C, H, W] となります。、一度に 1 つの画像のみを処理する場合でも、モデルが受け入れられるように画像をバッチ フォームに入れる必要があります。たとえば、[3, 255, 255] の形状を持つ画像がある場合、それを [1, 3, 255, 255] に変換する必要があります。これが unsqueeze(0) 関数の動作です。
学習時に使用した cuda を認識時に使用することもできますし、cuda 以外の「cpu」を使用することもできます。呼び出し結果は次のようになります:
python test.py には ant.jpg が含まれます
エンジニアリングトラックを入れて、中には
3 番目のカテゴリ、つまり tensor[2] が出てきたのを見ました。つまり、tensor[0] は ant、tensor[1] は bee、tensor[2] はエンジニアリング車両です。
移行学習による学習と認識は完了しましたが、ここで限界があります。これは、多分類認識とターゲット検出を使用せず、単一の主要オブジェクトの認識です。次の記事では、多分類認識とターゲット検出を使用して検出を行いますオブジェクト。