BERT对比如10个字左右的超短文本的0/1分类经验或填坑

问题

跑不了一个epoch就提前收敛了,然后就向过拟合发展了

解决方案

学习率设低一些,然后每个epoch都decay一下

训练数据5w至少吧,一般二分类都是2-3个epoch吧

发布了1142 篇原创文章 · 获赞 196 · 访问量 260万+

猜你喜欢

转载自blog.csdn.net/guotong1988/article/details/103085703
今日推荐