Pytorch のカスタム (変更された) モデルは、事前トレーニング モデル パラメーターの必要な部分をロードしてフリーズします。

この記事の一部はhttps://zhuanlan.zhihu.com/p/34147880を参照しています。

1. この方法はより汎用性が高く、自身のモデルのパラメーターに従って事前トレーニング モデルのパラメーターを読み込み、同じ名前を割り当てます。元のモデルにレイヤーを追加すると読み込まれなくなります

dict_trained=torch.load(self.args.load_path, map_location=torch.device('cpu'))
dict_new=model.state_dict()
# 1. filter out unnecessary keys
dict_trained = {
    
    k: v for k, v in dict_trained.items() if k in dict_new}
# 2. overwrite entries in the existing state dict
model_dict.update(dict_trained)
model.load_state_dict(dict_new)

2. これは非常に複雑で、必要に応じて変更できます。たとえば、私のモデルでは、このモデルは 'dense'、'unary_affine'、'binary_affine'、'classifier'、pass j+ の 4 つのレイヤーを追加します。 =8、それらの重みとバイアスをスキップします。これは重みの減衰を指します。同時に、元のモデルパラメータの「crf」部分はロードされません。

dict_trained = torch.load(self.args.load_path, map_location=torch.device('cpu'))
dict_new = self.model.state_dict().copy()
trained_list = list(dict_trained.keys())
new_list = list(dict_new.keys())
j = 0
no_loda = {'dense', 'unary_affine', 'binary_affine', 'classifier'}
for i in range(len(trained_list)):
     flag = False
     if 'crf' in trained_list[i]:
         continue
     for nd in no_loda:
         if nd in new_list[j] and 'bert' not in new_list[j]:
             flag = True
     if flag:
         j += 8  # no_loda的dense和bias掠过
     else:
         dict_new[new_list[j]] = dict_trained[trained_list[i]]
         if new_list[j] != trained_list[i]:
             print("i:{},new_state_dict: {}  trained state_dict: {}不一致".format(i, new_list[j], trained_list[i]))
     j += 1 #keys不对齐
model.load_state_dict(dict_new)

後で、もっと簡単な方法があることを知りました

つまり、独自のモデルを設定した後、事前トレーニングされたモデルと同じ構造のパラメーターのみを使用したい場合、つまり、を読み込むときにパラメーターstrictをFalseに設定しますこのパラメーターの値はデフォルトで True であり、事前トレーニングされたモデルのレイヤーがそれ自体で定義されたネットワーク構造のレイヤー (レイヤー名や次元など) と厳密に等しいことを意味し、それ以外の場合はロードできません。実装は次のとおりです。

model.load_state_dict(torch.load(self.args.load_path, strict=False))

PS: 間違いに遭遇した場合は、変更したモデル パラメータのキーとモデル パラメータをロードするためのキーを印刷して確認し、適切な薬を処方するとよいでしょう。

3. これらのパラメータのレイヤーをフリーズします

簡単に言えば

for k in model.paramers:
	k.requires_grad=False

いろいろな方法がありますが、ここでは上記の方法に対応する冷凍方法を使用します。


https://discuss.pytorch.org/t/how-the-pytorch-freeze-network-in-some-layers-only-the-rest-of-the-training/7088または
_
https://discuss .pytorch.org/t/correct-way-to-freeze-layers/26714
または
それに応じて、トレーニング中に、requires_grad = True であるパラメーターのみがオプティマイザーで更新できるため、

optimizer = torch.optim.Adam( filter(lambda p: p.requires_grad, net.parameters(),lr) )

おすすめ

転載: blog.csdn.net/weixin_42455006/article/details/125459110