YOLOV3代码分析

文件夹和文件的作用

config:文件的配置：
1.coco.data:存放coco数据集的相关信息，如类别总数，数据集的路径等
2.yolov3.cfg: yolov3的网络架构
data：存放训练集和测试集
1.coco:存放coco训练集和测试集

labels中存放每个照片的标签，分别放在一个txt文件中
5k.txt存放验证集的每一个照片的路径
coco.names存放各种分类的名称
trainvalno5k.txt存放训练集和验证集每一个照片的路径
output:预测结果存放路径
utils:工具类存放
1.augmentations.py:图片的反转
2.datasets.py:
- 导入模块：
glob模块用来查找文件目录和文件，并将搜索的到的结果返回到一个列表中，

torch.nn.functional与torch.nn的区别：torch.nn.functional.x 为函数,与torch.nn不同, torch.nn.x中包含了初始化需要的参数等 attributes 而torch.nn.functional.x则需要把相应的weights 作为输入参数传递,才能完成运算, 所以用torch.nn.functional创建模型时需要创建并初始化相应参数.
torch.nn.x初始化要在__init__中，torch.nn.functional参数初始化在__init()__中，而使用的时候在forward(参数)中。torch.nn.functional.conv2d(input, weight, bias=None, stride=1, padding=0, dilation=1, groups=1)
torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode=‘zeros’)

torch.utils.data中的Dataset和DataLoader, Dataset是对数据进行封装，DataLoader是数据加载，从Dataset中取一个批次的数据。
transforms主要实现对数据集的预处理、数据增强、转换成tensor等一系列操作
- 函数：
pad_to_square:如果图像不是正方形，则将其填充成正方形。h>=w,就将w填充成与h一样长，反之亦然。

resize:将图像变成指定的size

random_size:为了使模型适应各种size的输入，将图片随机变为一个size，但是这个size要是32的倍数，因为网络进行五次下采样。
- 类：
ImageFolder:

ListDataset:对数据集进行封装，继承Dataset

__init():找到训练集的所有照片的路径和对应的标签路径，初始化其他参数

__getitem():取出index对应的训练集照片，将其填充为正方形。取出对应的标签，将标签转化为填充后的标签值。将标签和照片随机进行反转。

collate_fn():

len:返回数据集的长度

3.parse_config.py:

parse_model_config:path为网络配置的路径，如yolov3.cfg。从对应的网络配置中一层层读取网络信息，添加到module_defs中。如果是卷积层就不需要归一化

4.utils.py:

build_targets():根据预测结果的batch_size,anchor box,classes,gridsize初始化各种参数，然后计算所有3*anchor boxes,这里的anchor boxes是所有像素点对应的框。
用真实框与预测框计算iou值，并返回这三种框中那个框和真实框最接近以及相应的得分。然后将检测都最高得分的anchor 所在格子的相应参数置为1
真实标签值的xy是除以了整张图片的wh的，在0_{1直接，而求出来的xy是相对于gridsize的偏移量，也是0}1之间。

weights：权重存放路径
detect.py:解析参数，配置模型，加载权重，然后预测出一个bounding box,计算每次预测的时间，最后画图并存放结果。
models.py:模型的配置
1.函数：

create_modules:nn.Sequential按顺序执行网络块，自定义了forward，而nn.ModuleList没有，需要循环来对每个网络模块forward，而且它的网络模块可以不按照顺序执行。
根据module_defs中的每个模块去构建网络结构
2.类：
Darknet:
forward用于一层一层前向module(x),如果是yolo层还有计算损失函数

YOLOLayer:
compute_grid_offsets计算每个格子的坐标，在前向传播中用来将bbox对于边界框的位置还原成绝对坐标
forward 将预测结果整理成output，与真实标签计算损失函数，还有各种指标
train.py:训练模型

文件夹和文件的作用

猜你喜欢