bert 与 ALbert

ALbert第一作者解说

一、bert 提升宽度和深度,参数爆炸;

1>、increasing width

保持效率不降的基础上,降低参数量;

1、factorized enbedding parametrization

大矩阵解压成两个小矩阵相乘 ——— 输入变量先降维,后升维,1》自由的把网络变宽;2》

2、cross_layer parameter sharing

层的参数共享,all_shared、shared_attention 

和bert参数对比

弊端:1、slower 3x in model

2>  increasing depth

扫描二维码关注公众号,回复: 9292315 查看本文章

removing dropout

有效性:参数共享,

self_supervising

猜你喜欢

转载自www.cnblogs.com/Christbao/p/12337361.html