resnet的训练(数据增强)

https://blog.csdn.net/weixin_41847115/article/details/84644305

resnet的输入size是224

一、图像的按比例缩放

将图像较短的那条边按比例随机缩放到【256】,长边随着短边按比例缩放

二、图像的裁剪

随机对图像进行裁剪【224,224】,如果采用随机裁剪可以得到多张图片,可以选择上下左右加中间再镜像大概得到十张左右

三、像素的归一化

每个通道的像素值都减去训练集中该通道的平均值

第四,颜色抖动(color shifting)
这里resnet 引用的是Alexnet 2012年提出的做法,对于每张图片,每个通道的数据先由二维转成一维(例如256*256*3,转成65536*3),再对该图片(65536*3)三个通道求出协方差矩阵(3*3),再求出协方差矩阵的特征向量p和特征值λ,最后按照下图这样一个公式进行转换进行变换, 这里α是一个服从均值为0,方差为0.1的随机变量(简单来说就是一个很小的随机数),[p1,p2,p3]是一个3*3的矩阵,[λ1,λ2,λ3]的转置是一个3*1的矩阵,最后矩阵相乘的结果也是个3*1的矩阵,刚好可以和原图片3个通道相加,这里执行的是python中的广播机制,即图片每个通道65536个像素点都加上同一个数。

第五,测试方法
先抽取测试集图像的四个角以及中间的224×224部分,还包括镜像共有10个部分(Patch)结果,再对这10个输入的测试结果做平均作为我们对该测试集图片的最终测试结果。

猜你喜欢

转载自blog.csdn.net/u012370185/article/details/90116279