整个trick

数据输入方面:1.image pyramid 图像金字塔.目前代码里是先选取一个scale,然后在每个GPU上按照scale读图片,相应的gt也更改."scales":[440, 520, 600, 680, 760] 使用的是短边的缩放到的尺寸,还用个maxsize限制了你的scale必须小于一个值

       deformable convolution是同时训练多个scale,然后每个网络训练出来的乘以一个权重

       但这样不同scale的网络结构不应该不一样不是吗?

       2.flip,老版的sensenet里面仅仅是使用flip之后的,cv::flip(img, img, 1);,即只使用了沿y轴翻转,且没有用原图.个人觉得这里翻转的角度应该还可以很多.据说还有只rotate20度,然后剪裁补0这种数据增强,在分割中用的比较多.

       3."pixel_means":[103.939, 116.779, 123.68],3个通道不同的mean值,然后图像原始的每个值减去这些值

         有什么作用?

       

多GPU训练,这个很重要,每个GPU一张图

猜你喜欢

转载自www.cnblogs.com/ymjyqsx/p/9164252.html