BERTアルバート

アルバート最初の著者の解説

A、BERT深さと爆発の幅パラメータを高めます。

1>、増加幅

保持効率の低下、低減パラメータの量に基づいて、

1、因数分解enbeddingパラメータ化

二つの小さな行列乗算に大きな行列を抽出---最初の入力変数の次元削減、寸法L、「フリーネットワークを広げ、2」

2、cross_layerパラメータ共有

パラメータ共有層、all_shared、shared_attention 

バートとは対照的パラメータ

短所:1、モデルでは、より遅い3倍

2>深さの増加

取り外しドロップアウト

効果:パラメータ共有、

self_supervising

 

おすすめ

転載: www.cnblogs.com/Christbao/p/12337361.html