#Reading Paper# 【长序列推荐】Legendre Memory Units: Continuous-Time Representation in Recurrent Neural Net

#论文题目:【长序列推荐】Legendre Memory Units: Continuous-Time Representation in Recurrent Neural Networks(勒让德记忆单元:递归神经网络中的连续时间表示)
#论文地址:https://www.researchgate.net/publication/337985170_Legendre_Memory_Units_Continuous-Time_Representation_in_Recurrent_Neural_Networks
#论文源码开源地址:https://github.com/abr/neurips2019
#论文所属会议:NeurIPS 2019
#论文所属单位: 滑铁卢大学
在这里插入图片描述

一、导读

我们知道,RNN、LSTM模型可以很好的提取序列推荐中在连续时间步的特征(LSTM在时间步为T=500~1000、 RNN在时间步T=2000~5000),但是在T → \rightarrow ∞ \infty 时候,还尚不清楚其如何应对此类问题,所以,该论文提出了一种新型的基于生物神经网络的方法LMU。

二、模型结构

2.1 数学角度近似

勒让德存储单元(LMU)的主要组成部分是一个存储单元,它使其连续时间中的输入信号u(t) ∈ R在长度θ ∈ R>0的滑动窗口上正交化。该单元由连续时间延迟的线性传递函数F(s)= e-θs得出,最佳近似方法为d耦合常微分方程(ODEs):
在这里插入图片描述
m(t) ∈ Rd是d维的状态向量,常数(A,B)使用Padé估计近似求得:
在这里插入图片描述
该动态系统的关键特性是上一时刻的m通过勒让德多项式表示u的滑动窗口,直到d-1次(类似LSTM的输入门原理):
在这里插入图片描述
Pi®是第i个移位勒让德多项式,这给出了唯一和最佳的分解,其中m的函数对应于投射到d正交基函数上的跨越长度为θ的窗口的计算。
在这里插入图片描述
LMU的记忆将输入历史的整个滑动窗口表示为这些比例不变多项式的线性组合。增加维数支持相对于时间尺度的更高频率输入的存储。

2.2 模型设计

在这里插入图片描述

以单个LMU单元举例,模型为一个n维状态矩阵ht动态的加上一个d维的记忆矩阵mt,记忆矩阵代表投射到d勒让德多项式的滑动窗口ut

首先:LMU接受输入向量xt,并生成隐藏状态ht ∈ Rn。每一层都维护自己的隐藏状态向量和内存向量。状态向量与存储向量mt ∈ Rd相互作用,以便在动态写入存储器的同时计算时间上的非线性函数。类似于NRU,隐藏状态向量是输入、先前状态和当前存储器向量的非线性函数的组合:
在这里插入图片描述
f是任何非线性函数(如sin、tanh)。Wx, Wh, Wm是可学习的参数矩阵。
请注意,虽然说隐藏状态ht和记忆状态mt都是利用输入、先前状态和当前存储器向量所得到的,但是其计算方法不同,写入存储器mt的输入信号ut为:
在这里插入图片描述
内核(W)学习计算内存中的非线性函数,而编码器(e)学习将相关信息投射到内存中。

请注意:隐藏状态ht的非线性计算方法已明确,但是存储单元mt还未指明如何得出。给定一些输入ut ∈ R,在离散时刻索引t ∈ N:
在这里插入图片描述
其中(A,B)是ODE求解器在相对于窗口长度θ的某个时间步长t内提供的离散化矩阵。例如,欧拉方法假设t足够小:
在这里插入图片描述
当d=1时,LMU类似于没有门控机制的LSTM,随着d的增加,其相对于频率内容的存储容量也增加。

三、实验数据

3.1 在MNIST上

在这里插入图片描述

3.2 在Mackey-Glass上

Mackey-Glass (MG)数据集是一项时间序列预测任务,用于测试网络模拟混沌动力系统的能力。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/CRW__DREAM/article/details/128281447