深度学习(十三)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yeyustudy/article/details/81914644

1、嵌入矩阵的设置:一般来说,设置嵌入矩阵要比其基数多一个,代表未知的参量,确定嵌入矩阵大小的经验法则是其基数除以2,但不大于50(可以与前文所述RNN那里一起理解)
2、AdamW算法:
在损失函数中加了正则项,权重更新方法仍旧使用Adam,但损失函数变为 L ( w ) = | | y ^ i y i | | 2 + λ | | w | | 2 ,使得优化适可而止。
3、Word2Vec:是生成词嵌入的一种手段,能将one-hot编码所产生的稀疏向量压缩到一个较小的子嵌入空间中,但用来预测性能不佳;其将原本输入句子标记为1,删除原本句子中间单词并用随机单词代替并标记为0,利用模型训练找到标记为0的句子,我们要的就是在这个过程中生成的词嵌入。词嵌入是一种考虑语义的词表示方法。
4、Autoencoder:是一个输入等于输出的任务,相当于重构自身,保证中间层的激活量小于输入量,可以说是一个假任务。

猜你喜欢

转载自blog.csdn.net/yeyustudy/article/details/81914644
今日推荐