自然语言处理(三 RNNLM优化)

RNN LM性能改进

主要改进trick:输入数据预处理,改进模型结构,改变输入数据格式,正则化

数据预处理

(1)随机选取句子中的部分词语进行表示(使用drop rate选取句子中的词语);
(2)bigram 内插、平滑等

模型结构改进

(1)SRNN->LSTM->GRU->minimal RNN
(2)LSTM前添加CNN,选取不同长度的filter函数能够抓取一些短语信息;
(3)NCE机制,能够加快Softmax层计算
(4)快速LM训练:HS, Negative Sampling,NCE
(5)若是训练word2vec,可以推荐facebook的fasttext工具。

改变模型输入数据

word level LM -> subword level LM -> character level LM

正则化

避免模型过拟合,可以采用drop out等正则化方法

猜你喜欢

转载自blog.csdn.net/u011195431/article/details/78689971