HRED(CIKM)

在这里插入图片描述

Query-Level Encoding

对于查询 $Q_m$ ={ $w$ $_m$ $,$ $_1$ ,…, $w$ $_m$ $,$ $_N$ $_m$ }
在这里插入图片描述
$h$ $_m$ $,$ $_0$ =0(初始0向量)

一个session中得查询集合 $q_1$ ,…, $q_M$
在这里插入图片描述
$s$ $_0$ =0(初始0向量)

根据先前得查询预测下一个查询：
在这里插入图片描述

在这里插入图片描述

每一个当前隐藏状态用于计算下一个词出现得概率：

$o$ 是一个真值向量。（可以是词得嵌入向量），这个 $o$ 与下面得 $w$ $_m$ $_n$ $_-$ $_1$ 维度不同。
其中：
$w$ $_m$ $,$ $_0$ =0，(初始0向量。）

通过最大化Session的log-likelihood（由公式6和公式9估计的概率定义）来学习这些：
在这里插入图片描述

考虑一个用户提交查询：cleveland gallery → lake erie artist.。suggestion系统操作如下:

将(4)应用于每个查询，得到查询向量qcleveland gallery和qlake erie art。
然后，通过将(5)应用于查询向量来计算会话级的递归状态。如：得到了两个会话级的递归状态：cleveland gallery和slake erie art。
要生成上下文感知建议，首先映射最后一个session-level得隐藏状态——s $_（$ $_l$ $_a$ $_k$ $_e$ $_e$ $_r$ $_i$ $_e$ $_a$ $_r$ $_t$ $_）$ ，使用公式（7），作为初始解码器得输入。
假设波束搜索大小为1，suggestion中第一个单词 $w_1$ 的概率是通过 $d_0$ 和 $w_0$ = $0$ （零向量）用等式(9)计算的。概率最高的词，即cleveland，被加到波束上。
使用 $d_0$ 和 $w_1$ =cleveland ，通过(8)计算下一个解码器的循环状态 $d_1$ 。使用 $d_1$ ，可以选择 $w_2$ =indian作为第二个最有可能的单词。过程重复，模型依次选择“art”和“◦”（查询结束符号）。一旦查询结束符号被采样，上下文感知的suggesion： cleveland indian art 呈现给用户。

词汇 $V$ :90 $K$ 。这是应用于语言的RNN的一个常见设置。
使用小批量RMSPROP]进行参数优化。
如果梯度的范数超过阈值c=1，通过规范化梯度来稳定学习。
如果验证集的likelihood在连续5次迭代中没有改善，则停止训练。
使用Theano library训练模型。查询-level的RNN维度设置为 $d_h$ =1000。为了确保高容量的session-level的RNN，设置 $d_s$ =1500。这对于记忆以前查询的复杂信息非常有用。输出词嵌入维度为300，即 $d_e$ =300。
```
 An implementation of the model is available at https://github.com/sordonia/hed-qs.
```