Pytorch求索(3)：使用训练好的词向量 - 代码天地

Pytorch求索(3)：使用训练好的词向量

其他 2018-11-20 20:47:42 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wen_fei/article/details/83117324

nn.Embedding

Pytorch自带Embedding模块，可以方便使用

self.embed = nn.Embedding(vocab_size, embedding_dim)

那么，如何使用已经训练好的词向量呢？
词向量其实是模型的embedding层的权重，所以，如下方法便可以实现：

self.embed = nn.Embedding(vocab_size, embedding_dim)
self.embed.weight.data.copy_(torch.from_numpy(pretrained_embeddings))

同时，使用已经训练好的词向量之后，我们又有如下选择，即保持词向量不更新（固定词向量），或者基于加载的词向量进行更新权重，很多人往往会忘记这一点。

不需要改变，因此就涉及到固定子层参数不更新的技巧。这个方法有很多，常用的是requires_grad和volatile，requires_grad = False等同于volatile = True。

self.embed = nn.Embedding(V, D)
self.embed.weight.data.copy_(torch.from_numpy(pretrained_embeddings))
self.embed.weight.requires_grad = False

因此我们可以设置embeding层的参数的parameter的requires_grad为False，这样就不会计算其梯度了，这样还会提升模型训练的速度，因为预训练的词向量矩阵维度很大，如果每次反向传播都计算它的梯度会极大地影响训练的速度。此外，设置优化器的时候，第一个参数就不可以是model.parameter()，因为embeding层的梯度是没有的，也就优化不了，因此要将它排除。代码如下：

optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=lr, weight_decay=opt.weight_decay)

代码使用了过滤器将requires_grad为False的过滤掉（默认为True），这样就可以保证代码的正确性。

猜你喜欢

转载自blog.csdn.net/wen_fei/article/details/83117324

Pytorch求索(3)：使用训练好的词向量

tensorflow试用训练好的词向量

Python Word2Vec使用训练好的模型生成词向量

深度学习中文NLP任务实战（二）：使用训练好的词向量

pytorch中如何使用预训练词向量

PyTorch在NLP任务中使用预训练词向量

word2vec训练好的词向量

paddlelite使用pytorch训练好的模型

使用django 加载pytorch训练好的模型

使用gensim训练词向量

PyTorch(三)——使用训练好的模型测试自己图片

使用 pytorch 保存和加载训练好的模型

【Pytorch】使用训练好的模型进行图像分类预测

pytorch GPU训练好的模型使用CPU加载

pytorch中如何使用预训练好的BERT当作embedding

pytorch中的embedding词向量的使用

pytorch保存训练好的模型

使用 rnn 训练词向量模型

使用genism训练词向量【转载】

Pytorch求索(1)：pytorch与Tensorboard的结合使用

【pytorch】Pytorch训练好的模型转torchscript

训练词向量

词向量训练原理

转载训练词向量

glove训练词向量

训练词向量实战

词向量训练

词向量的训练

词表征 3：GloVe、fastText、评价词向量、重新训练词向量

Pytorch 加载训练好的模型遇到的error

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)