Parameter analysis of yolov2.cfg and yolov3 configuration files

yolo2.cfg configuration file analysis

[net]
batch=64                           每batch个样本更新一次参数。
subdivisions=8                     如果内存不够大,将batch分割为subdivisions个子batch,每个子batch的大
				   小为batch/subdivisions。
                                   在darknet代码中,会将batch/subdivisions命名为batch。
height=416                         input图像的高
width=416                          Input图像的宽
channels=3                         Input图像的通道数
momentum=0.9                       动量
decay=0.0005                       权重衰减正则项,防止过拟合
angle=0                            通过旋转角度来生成更多训练样本
saturation = 1.5                   通过调整饱和度来生成更多训练样本
exposure = 1.5                     通过调整曝光量来生成更多训练样本
hue=.1                             通过调整色调来生成更多训练样本
 
learning_rate=0.0001               初始学习率
max_batches = 45000                训练达到max_batches后停止学习
policy=steps                       调整学习率的policy,有如下policy:CONSTANT, STEP, EXP, POLY, STEPS,
				   SIG, RANDOM
steps=100,25000,35000              根据batch_num调整学习率
scales=10,.1,.1                    学习率变化的比例,累计相乘
 
[convolutional]
batch_normalize=1                  是否做BN
filters=32                         输出多少个特征图
size=3                             卷积核的尺寸
stride=1                           做卷积运算的步长
pad=1                              如果pad为0,padding由 padding参数指定。如果pad为1,padding大小为size/2
activation=leaky                   激活函数:logistic,loggy,relu,elu,relie,plse,hardtan,lhtan,linear,ramp,
leaky,tanh,stair
 
[maxpool]
size=2                             池化层尺寸
stride=2                           池化步进
 
......
......
 
 
#######
 
[route]                            the route layer is to bring finer grained features in from earlier in the 
network
layers=-9
 
[reorg]                         passthrougth layer: make these features match the feature map size at the later layer. 
                                   The end feature map is 13x13, the feature map from earlier is 26x26x512. 
                                   The reorg layer maps the 26x26x512 feature map onto a 13x13x2048 feature map 
                                   so that it can be concatenated with the feature maps at 13x13 resolution.
stride=2
 
[route]
layers=-1,-3                        route层起连接作用,reorg层来match特征图尺寸。
 
...
[convolutional]
size=1
stride=1
pad=1
filters=125                        region前最后一个卷积层的filters数是特定的,计算公式为filter=num*(classes+5) 
                                   5的意义是5个坐标,论文中的tx,ty,tw,th,to
activation=linear
 
[region]
anchors = 1.08,1.19,  3.42,4.41,  6.63,11.38,  9.42,5.11,  16.62,10.52          预选框,可以手工挑选,
                                                                                也可以通过k means 从训练样本中学出
bias_match=1
classes=20                         网络需要识别的物体种类数
coords=4                           每个box的4个坐标tx,ty,tw,th
num=5                              每个grid cell预测几个box,和anchors的数量一致。当想要使用更多anchors时需要调大
				   num,且如果调大num后训练时Obj趋近0的话可以尝试调大object_scale
softmax=1                          使用softmax做激活函数
jitter=.2                          通过抖动增加噪声来抑制过拟合
rescore=1                          暂理解为一个开关,非0时通过重打分来调整l.delta(预测值与真实值的差)
 
object_scale=5                     栅格中有物体时,bbox的confidence loss对总loss计算贡献的权重
noobject_scale=1                   栅格中没有物体时,bbox的confidence loss对总loss计算贡献的权重
class_scale=1                      类别loss对总loss计算贡献的权重                      
coord_scale=1                      bbox坐标预测loss对总loss计算贡献的权重
 
absolute=1
thresh = .6
random=0                           random为1时会启用Multi-Scale Training,随机使用不同尺寸的图片进行训练。

Reference: yolo.cfg configuration file analysis

 

yolo3 configuration file yolo3_voc.cfg

[net]                        ★ [xxx]开始的行表示网络的一层,其后的内容为该层的参数配置,[net]为特殊的层,配置整个网络
# Testing                 ★ #号开头的行为注释行,在解析cfg的文件时会忽略该行
# batch=1
# subdivisions=1
# Training

batch=64                    ★ 这儿batch与机器学习中的batch有少许差别,仅表示网络积累多少个样本后进行一次BP 
subdivisions=16         ★ 这个参数表示将一个batch的图片分sub次完成网络的前向传播
                                   ★★ 敲黑板:在Darknet中,batch和sub是结合使用的,例如这儿的batch=64,sub=16表示训练的过
                             程中将一次性加载64张图片进内存,然后分16次完成前向传播,意思是每次4张,前向传播的循环过程中
                             累加loss求平均,待64张图片都完成前向传播后,再一次性后传更新参数
                             ★★★ 调参经验:sub一般设置16,不能太大或太小,且为8的倍数,其实也没啥硬性规定,看着舒服就好
                             batch的值可以根据显存占用情况动态调整,一次性加减sub大小即可,通常情况下batch越大越好,还需
                             注意一点,在测试的时候batch和sub都设置为1,避免发生神秘错误!

width=608            ★ 网络输入的宽width
height=608           ★ 网络输入的高height
channels=3           ★ 网络输入的通道数channels
                             ★★★ width和height一定要为32的倍数,否则不能加载网络
                             ★ 提示:width也可以设置为不等于height,通常情况下,width和height的值越大,对于小目标的识别
                             效果越好,但受到了显存的限制,读者可以自行尝试不同组合
                             
momentum=0.9          ★ 动量 DeepLearning1中最优化方法中的动量参数,这个值影响着梯度下降到最优值得速度
decay=0.0005            ★ 权重衰减正则项,防止过拟合

angle=0                      ★ 数据增强参数,通过旋转角度来生成更多训练样本
saturation = 1.5          ★ 数据增强参数,通过调整饱和度来生成更多训练样本
exposure = 1.5           ★ 数据增强参数,通过调整曝光量来生成更多训练样本
hue=.1                        ★ 数据增强参数,通过调整色调来生成更多训练样本

learning_rate=0.001          ★ 学习率决定着权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢。
                             如果仅靠人为干预调整参数,需要不断修改学习率。刚开始训练时可以将学习率设置的高一点,
                             而一定轮数之后,将其减小在训练过程中,一般根据训练轮数设置动态变化的学习率。
                             刚开始训练时:学习率以 0.01 ~ 0.001 为宜。一定轮数过后:逐渐减缓。
                             接近训练结束:学习速率的衰减应该在100倍以上。
                             学习率的调整参考https://blog.csdn.net/qq_33485434/article/details/80452941
                             ★★★ 学习率调整一定不要太死,实际训练过程中根据loss的变化和其他指标动态调整,手动ctrl+c结
                             束此次训练后,修改学习率,再加载刚才保存的模型继续训练即可完成手动调参,调整的依据是根据训练
                             日志来,如果loss波动太大,说明学习率过大,适当减小,变为1/5,1/10均可,如果loss几乎不变,
                             可能网络已经收敛或者陷入了局部极小,此时可以适当增大学习率,注意每次调整学习率后一定要训练久
                             一点,充分观察,调参是个细活,慢慢琢磨
                             ★★ 一点小说明:实际学习率与GPU的个数有关,例如你的学习率设置为0.001,如果你有4块GPU,那
                             真实学习率为0.001/4
burn_in=1000                 ★ 在迭代次数小于burn_in时,其学习率的更新有一种方式,大于burn_in时,才采用policy的更新方式
max_batches = 500200         ★ 训练次数达到max_batches后停止学习,一次为跑完一个batch

policy=steps                 ★ 学习率调整的策略:constant, steps, exp, poly, step, sig, RANDOM,constant等方式
                             参考https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83%E5%8F%82%E6%80%BB%E7%BB%93/#more
steps=400000,450000          
scales=.1,.1                 ★ steps和scale是设置学习率的变化,比如迭代到400000次时,学习率衰减十倍,45000次迭代时,学
                             习率又会在前一个学习率的基础上衰减十倍

[convolutional]              ★ 一层卷积层的配置说明
batch_normalize=1            ★ 是否进行BN处理,什么是BN此处不赘述,1为是,0为不是 
filters=32                   ★ 卷积核个数,也是输出通道数
size=3                       ★ 卷积核尺寸
stride=1                     ★ 卷积步长
pad=1                        ★ 卷积时是否进行0 padding,padding的个数与卷积核尺寸有关,为size/2向下取整,如3/2=1
activation=leaky             ★ 网络层激活函数
                             ★★ 卷积核尺寸3*3配合padding且步长为1时,不改变feature map的大小
                             
# Downsample
[convolutional]              ★ 下采样层的配置说明
batch_normalize=1
filters=64
size=3
stride=2
pad=1
activation=leaky             ★★ 卷积核尺寸为3*3,配合padding且步长为2时,feature map变为原来的一半大小

[shortcut]                   ★ shotcut层配置说明
from=-3                      ★ 与前面的多少次进行融合,-3表示前面第三层
activation=linear            ★ 层次激活函数
    ......
    ......
[convolutional]              ★ YOLO层前面一层卷积层配置说明
size=1
stride=1
pad=1
filters=255                  ★ filters=num(预测框个数)*(classes+5),5的意义是4个坐标加一个置信率,论文中的tx,ty,tw,th,
                             c,classes为类别数,COCO为80,num表示YOLO中每个cell预测的框的个数,YOLOV3中为3
                             ★★★ 自己使用时,此处的值一定要根据自己的数据集进行更改,例如你识别4个类,则:
                             filters=3*(4+5)=27,三个fileters都需要修改,切记
activation=linear

[yolo]                       ★ YOLO层配置说明
mask = 0,1,2                 ★  使用anchor的索引,0,1,2表示使用下面定义的anchors中的前三个anchor
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326   
classes=80                   ★ 类别数目
num=9                        ★ 每个grid cell总共预测几个box,和anchors的数量一致。当想要使用更多anchors时需要调大num
jitter=.3                    ★ 数据增强手段,此处jitter为随机调整宽高比的范围,该参数不好理解,在我的源代码注释中有详细说明
ignore_thresh = .7
truth_thresh = 1             ★ 参与计算的IOU阈值大小.当预测的检测框与ground true的IOU大于ignore_thresh的时候,参与
                             loss的计算,否则,检测框的不参与损失计算。
                             ★ 理解:目的是控制参与loss计算的检测框的规模,当ignore_thresh过于大,接近于1的时候,那么参与
                             检测框回归loss的个数就会比较少,同时也容易造成过拟合;而如果ignore_thresh设置的过于小,那么
                             参与计算的会数量规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。
                             ★ 参数设置:一般选取0.5-0.7之间的一个值,之前的计算基础都是小尺度(13*13)用的是0.7,
                             (26*26)用的是0.5。这次先将0.5更改为0.7。参考:https://www.e-learn.cn/content/qita/804953
random=1             ★ 为1打开随机多尺度训练,为0则关闭

 ★★ Tip: When the random multi-scale training is turned on, the previously set network input size width and height will not work. The width will be randomly selected from 320 to 608, and width=height, no random changes in 10 rounds Once, it is generally suggested that you can modify the range of random scale training according to your needs, so you can increase the batch, and readers are encouraged to try it yourself!

Reference: yolo3 configuration file yolo3_voc.cfg

Detailed explanation of yolov3.cfg parameters

1.1 Layer description

[xxx]开始的行表示网络的一层,其后的内容为该层的参数配置
[convolutional]为卷积层
[yolo]为yolov3的配置参数
其中[net]为特殊的层,配置整个网络

1.2 Description of each layer parameter

[net]                   
batch=64                     表示网络积累多少个样本后进行一次BP

subdivisions=16              这个参数表示将一个batch的图片分sub次完成网络的前向传播,程中将一次性加载64张图片进内存,然后分16次完成前向传播,意思是每次4张,前向传播的循环过程中
                             累加loss求平均,待64张图片都完成前向传播后,再一次性后传更新参数
                             调参经验:sub一般设置16,不能太大或太小,且为8的倍数,其实也没啥硬性规定,看着舒服就好
                             batch的值可以根据显存占用情况动态调整,一次性加减sub大小即可,通常情况下batch越大越好,还需
                             注意一点,在测试的时候batch和sub都设置为1,避免发生神秘错误!

width=608                    网络输入的宽width
height=608                   网络输入的高height
channels=3                   网络输入的通道数channels
                             width和height一定要为32的倍数,否则不能加载网络
                             提示:width也可以设置为不等于height,通常情况下,width和height的值越大,对于小目标的识别
                             效果越好,但受到了显存的限制,读者可以自行尝试不同组合
                             
momentum=0.9                 动量 DeepLearning1中最优化方法中的动量参数,这个值影响着梯度下降到最优值得速度
decay=0.0005                 权重衰减正则项,防止过拟合

angle=0                      数据增强参数,通过旋转角度来生成更多训练样本
saturation = 1.5             数据增强参数,通过调整饱和度来生成更多训练样本
exposure = 1.5               数据增强参数,通过调整曝光量来生成更多训练样本
hue=.1                       数据增强参数,通过调整色调来生成更多训练样本

learning_rate=0.001          学习率决定着权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢。
                             如果仅靠人为干预调整参数,需要不断修改学习率。刚开始训练时可以将学习率设置的高一点,
                             而一定轮数之后,将其减小在训练过程中,一般根据训练轮数设置动态变化的学习率。
                             刚开始训练时:学习率以 0.01 ~ 0.001 为宜。一定轮数过后:逐渐减缓。
                             接近训练结束:学习速率的衰减应该在100倍以上。
                             学习率调整一定不要太死,实际训练过程中根据loss的变化和其他指标动态调整,手动ctrl+c结
                             束此次训练后,修改学习率,再加载刚才保存的模型继续训练即可完成手动调参,调整的依据是根据训练
                             日志来,如果loss波动太大,说明学习率过大,适当减小,变为1/5,1/10均可,如果loss几乎不变,
                             可能网络已经收敛或者陷入了局部极小,此时可以适当增大学习率,注意每次调整学习率后一定要训练久
                             一点,充分观察,调参是个细活,慢慢琢磨
                             一点小说明:实际学习率与GPU的个数有关,例如你的学习率设置为0.001,如果你有4块GPU,那
                             真实学习率为0.001/4
burn_in=1000                 在迭代次数小于burn_in时,其学习率的更新有一种方式,大于burn_in时,才采用policy的更新方式
max_batches = 500200         训练次数达到max_batches后停止学习,一次为跑完一个batch

policy=steps                 学习率调整的策略:constant, steps, exp, poly, step, sig, RANDOM,constant等方式
                             
steps=400000,450000          steps和scale是设置学习率的变化,比如迭代到400000次时,学习率衰减十倍,45000次迭代时,学
scales=.1,.1                 习率又会在前一个学习率的基础上衰减十倍
                             

[convolutional]为卷积层,详细注释如下:

[convolutional]              一层卷积层的配置说明
batch_normalize=1            是否进行BN处理 
filters=32                   卷积核个数,也是输出通道数
size=3                       卷积核尺寸
stride=1                     卷积步长
pad=1                        卷积时是否进行0 padding,padding的个数与卷积核尺寸有关,为size/2向下取整,如3/2=1
activation=leaky             网络层激活函数
                             卷积核尺寸3*3配合padding且步长为1时,不改变feature map的大小

[shortcut]层详细注释如下:

[shortcut]                   shotcut层配置说明
from=-3                      与前面的多少次进行融合,-3表示前面第三层
activation=linear            层次激活函数

[yolo]层详细注释如下:

[yolo]                       YOLO层配置说明
mask = 0,1,2                 使用anchor的索引,0,1,2表示使用下面定义的anchors中的前三个anchor
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326   
classes=80                   类别数目
num=9                        每个grid cell总共预测几个box,和anchors的数量一致。当想要使用更多anchors时需要调大num
jitter=.3                    数据增强手段,此处jitter为随机调整宽高比的范围
ignore_thresh = .7
truth_thresh = 1             参与计算的IOU阈值大小.当预测的检测框与ground truth的IOU大于ignore_thresh的时候,参与
                             loss的计算,否则,检测框的不参与loss计算。
                             理解:目的是控制参与loss计算的检测框的规模,当ignore_thresh过于大,接近于1的时候,那么参与
                             检测框回归loss的个数就会比较少,同时也容易造成过拟合;而如果ignore_thresh设置的过于小,那么
                             参与计算的会数量规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。
                             参数设置:一般选取0.5-0.7之间的一个值,之前的计算基础都是小尺度(13*13)用的是0.7,(26*26)用的是0.5。这次先将0.5更改为0.7。

random=1                     为1打开随机多尺度训练,为0则关闭
                             提示:当打开随机多尺度训练时,前面设置的网络输入尺寸width和height其实就不起作用了,width
                             会在320到608之间随机取值,且width=height,没10轮随机改变一次,一般建议可以根据自己需要修改
                             随机尺度训练的范围,这样可以增大batch

Reference: Detailed explanation of yolov3.cfg parameters

I will add some of my own understanding and experience in the follow-up.

Guess you like

Origin blog.csdn.net/juluwangriyue/article/details/108770347