finetune

   作者：朱坚升 
 

   链接：https://www.zhihu.com/question/35754716/answer/66561128 
 

   来源：知乎 
 

   著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 
 

   1、会更新， 
  finetune的过程相当于继续训练，跟直接训练的区别是初始化的时候： 
 

   a. 直接训练是按照网络定义指定的方式初始化（如高斯随机初始化） 
 

   b. 
  finetune是用你已经有的参数文件来 
  初始化（就是之前训练好的caffemodel） 
 

   2、嗯，这个问题有两种情况：比如有4个全连接层A->B->C->D 
 

   a. 你希望C层的参数不会改变，C前面的AB层的参数也不会改变，这种情况也就是 
  D层的梯度不往前反向传播到D层的输入blob（也就是C层的输出blob 没有得到梯度），你可以通过设置D层的propagate_down为false来做到。 
 

   propagate_down的数量与输入blob的数量相同，假如你某个层有2个输入blob，那么你应该在该layer的Param里面写上两行： 
 

   propagate_down : 0 # 第1个输入blob不会得到反向传播的梯度 
 

   propagate_down : 0 # 第2个输入blob不会得到反向传播的梯度 
 

   这样的话，你这个layer的梯度就不会反向传播啦，前面的所有layer的参数也就不会改变了 
 

   b. 
  你希望C层的参数不会改变，但是C前面的AB层的参数会改变，这种情况，只是固定了C层的参数，C层得到的梯度依然会反向传播给前面的B层。只需要将对应的参数 
  blob的学习率调整为0： 
 

   你在layer里面加上param { lr_mult: 0 }就可以了，比如全连接层里面： 
 

   layer { 
 

   type: "InnerProduct" 
 

   param { # 对应第1个参数blob的配置，也就是全连接层的参数矩阵的配置 
 

   lr_mult: 0 # 学习率为0，其他参数可以看caffe.proto里面的ParamSpec这个类型 
 

}

   param { # 对应第2个参数blob的配置，也就是全连接层的偏置项的配置 
 

   lr_mult: 0 # 学习率为0 
 

}

}

   不知道这样说你能不能理解... 
 

   =================================== 
 

   fine-tune时用已经训练好的权值进行初始化，结果一般比直接训练会好很多，尤其是训练数据不多的情况下。solver文件中最重要的可能是学习率了，一般fine-tune时学习率比直接train时小一些，一般训练的学习率0.001~0.01之间，可以多试试。 
 

   作者：beanfrog 
 

   链接：https://www.zhihu.com/question/35634312/answer/63770470 
 

   来源：知乎 
 

   著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 
 

猜你喜欢