AllenNLP实践——参数初始化与加载预训练模型 - 代码天地

AllenNLP实践——参数初始化与加载预训练模型

其他 2019-04-25 10:50:55 阅读次数: 0

AllenNLP参数初始化源码可以阅读allennlp.nn.initializers，他们将加载预训练模型也作为一种参数初始化方式，加到这部分。

使用方法

模型的构造参数设置一项initializer: InitializerApplicator = InitializerApplicator()，用initializer来对模型参数进行不同的初始化。
在__init__最后加一行initializer(self)
设置配置文件,举个例子：

"model":
{
  ...,
 "initializer": 
      [
            [".*_highway_layer._layers.*.weight", {"type": "xavier_normal"}],
            [".*highway_layer._layers.*bias", {"type": "constant", "val": 0}],
            [
                ".*_text_field_embedder.*|_model_highway_layer._layers.*|.*encoding_proj.*|.*_phrase_layer.*|.*_modeling_layer.*|.*predictor.*|.*_matrix_attention.*",
                {
                    "type": "pretrained",
                    "weights_file_path": "./weights.th"
                }
            ]
      ]
}

用正则表达式确定需要初始化的层，常用的是“.*”，表示匹配任意个数的任意字符
我在使用过程中注意到需要避免对Layernorm初始化，bias不能用xavier_normal
可以对不同的层进行不同的初始化，比如在修改一部分结构之后，可以对其他部分用预训练模型初始化，对修改的部分用其他初始化方式

猜你喜欢

转载自blog.csdn.net/m0_38133212/article/details/89380734

AllenNLP实践——参数初始化与加载预训练模型

Pytorch 快速入门（七）加载预训练模型初始化网络参数

【pytorch 修改预训练模型：实测加载预训练模型与模型随机初始化差别不大】

用MXnet预训练模型初始化Pytorch模型

torch加载与训练模型并对新模型进行初始化

PyTorch中使用预训练的模型初始化网络的一部分参数

PyTorch中使用预训练的模型初始化网络的一部分参数(增减网络层，修改某层参数等) 固定参数

PyTorch | 模型加载/参数初始化/Finetune

【BUG】tensorflow预训练简单模型及权重文件复用初始化复杂模型

pytorch加载预训练模型参数的方式

pytorch加载预训练模型部分参数

重构预训练模型后加载参数

pytorch如何使用torchtext初始化LSTM的embedding层？如何用各种预训练模型初始化embedding层？

NN模型设置--参数初始化

【DeepCV】模型参数的初始化方式

模型参数的延后初始化

【pytorch】模型参数的访问与初始化

pytorch加载预训练模型中的部分参数

Pytorch模型训练--模型初始化（2）

初始化加载

加载resNet预训练模型

keras加载预训练模型

pytorch加载预训练模型

Pytorch预训练模型加载

【Pytorch参数初始化】pytorch模型参数默认初始化init问题

参数初始化

关于增量训练中的参数初始化

PyTorch 保存和加载模型参数，从预训练模型中加载部分参数，包括预训练模型中某些参数不匹配的情况

pytorch保存、加载参数的方式,初始化权重方式

深度模型中的优化与参数初始化方法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)