https://baijiahao.baidu.com/s?id=1695165163278178709&wfr=spider&for=pc
内容:
- 混合精度,将默认的32位训练转换为16位
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()
2.进度条显示
pip install tqdm
3.梯度积累
梯度累加的工作原理是:以16个批的规模运行模型两次,将计算出的每个批的梯度累加起来,最后在这两次前向传播和梯度累加之后执行一个优化步骤。