Exercise-Enhanced SequentialModeling for Student Performance Prediction

智能教育系统中，如何有效预测学生表现是非常重要的，也是进行个性化推荐，学习路径规划的基础，常用的预测方式依赖于专家将学习材料进行的知识成分的标注，如题目对应的知识点等，并没有考虑题面信息。而相同的知识点的题目难度，区分度或其他技能要求都是有所不同的，所以作者考虑将体面信息进行利用，提出了Exercise-Enhanced Recurrent Neural Network (EERNN) 进行学生表现预测。

模型

模型主要包括三部分：1.使用bi-LSTM对题面信息进行表征编码；2.使用另外的LSTM结构进行知识追踪的学习；3.对于最终的预测，将EERNN进行拓展，一是加入马尔可夫性，二是采用了attention机制。

模型优点：

作者所提出的模型优点在于：

模型输入不仅利用了学生做题序列，也将题目信息加入其中。
模型由于加入attention机制，更加聚焦于当时的效果而不是长期依赖的影响。
模型解决了冷启动问题，即对于新来的学生或题目，都可以进行预测。

算法过程：

$S$ 表示学生集合， $E$ 表示练习集合，第i个学生的做题过程表示为： $s _ { i } =\left\{ \left( e _ { 1 } ^ { i } , r _ { 1 } ^ { i } \right) , \left( e _ { 2 } ^ { i } , r _ { 2 } ^ { i } \right) , \ldots , \left( e _ { T } ^ { i } , r _ { T } ^ { i } \right) \right\}$ ，其中 $e _ { j } ^ { i }$ 表示学生i做过的第j个练习， $r _ { j } ^ { i }$ 表示对应得分（0或1）。每个练习题是由多个词组成的，对应表示为： $e _ { i } = \left\{ w _ { 1 } ^ { i } , w _ { 2 } ^ { i } , \ldots , w _ { M } ^ { i } \right\}$ 。模型要解决的任务是根据学生做题序列和对应的题目信息，预测在下个题目上的得分情况：

\tilde { r } _ { T + 1 } = P \left( r _ { T + 1 } = 1 | \left( e _ { 1 } , r _ { 1 } \right) , \left( e _ { 2 } , r _ { 2 } \right) , \ldots , \left( e _ { T } , r _ { T } \right) , e _ { T + 1 } \right)

在这里插入图片描述

上图为模型架构图， $e_{i}$ 表示第i步对应的练习题， $x_{i}$ 是对应题目编码后的向量， $r_{i}$ 为对应答题结果， $\tilde{ x } _ { i }$ 为送入模型的输入，具体公式如下：

\tilde{x}_{t}=\left\{\begin{matrix} [x_{i},o_{i}] &amp; if &amp;r_{i}=1 \\ [o_{i},x_{i}] &amp; if &amp; r_{i}=0 \end{matrix}\right.

其中

o_{i}

是把

r_{i}

扩展为

x_{i}

相同维度后的向量。
EERNN模型的马尔可夫特性体现在，T+1时刻输出只与T时刻状态有关，具体如下公式所示：

y _ { T + 1 } = \operatorname { Re } L U \left( \mathbf { W } _ { 1 } \cdot \left[ h _ { T } \oplus x _ { T + 1 } \right] + \mathbf { b } _ { 1 } \right)

\widetilde { r } _ { T + 1 } = \sigma \left( \mathbf { W } _ { 2 } \cdot y _ { T + 1 } + \mathbf { b } _ { 2 } \right)

模型引入注意力机制后，其核心在于使用了题目信息的相似性作为attention的score，具体公式如下：

h _ { a t t } = \sum _ { j = 1 } ^ { T } \alpha _ { j } h _ { j } , \alpha _ { j } = \cos \left( x _ { T + 1 } , x _ { j } \right)

模型采用的损失同样为交叉熵损失，公式如下：

\mathcal { L } = - \sum _ { t = 1 } ^ { T } \left( r _ { t } \log \widetilde { r } _ { t } + \left( 1 - r _ { t } \right) \log \left( 1 - \widetilde { r } _ { t } \right) \right)

结论

文章所提出模型和DKT模型的核心区别在于，1. 在输入中使用了题目信息，2.使用题目编码后的向量做cosine相似性计算，作为注意力机制的score应用与模型。

论文导读：Exercise-Enhanced Sequential Modeling for Student Performance Prediction

Exercise-Enhanced SequentialModeling for Student Performance Prediction

模型

模型优点：

算法过程：

结论

猜你喜欢