アルバート最初の著者の解説
A、BERT深さと爆発の幅パラメータを高めます。
1>、増加幅
保持効率の低下、低減パラメータの量に基づいて、
1、因数分解enbeddingパラメータ化
二つの小さな行列乗算に大きな行列を抽出---最初の入力変数の次元削減、寸法L、「フリーネットワークを広げ、2」
2、cross_layerパラメータ共有
パラメータ共有層、all_shared、shared_attention
バートとは対照的パラメータ
短所:1、モデルでは、より遅い3倍
2>深さの増加
取り外しドロップアウト
効果:パラメータ共有、
self_supervising