论文导读:Exercise-Enhanced Sequential Modeling for Student Performance Prediction

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Zoe_Su/article/details/84566409

Exercise-Enhanced SequentialModeling for Student Performance Prediction

智能教育系统中,如何有效预测学生表现是非常重要的,也是进行个性化推荐,学习路径规划的基础,常用的预测方式依赖于专家将学习材料进行的知识成分的标注,如题目对应的知识点等,并没有考虑题面信息。而相同的知识点的题目难度,区分度或其他技能要求都是有所不同的,所以作者考虑将体面信息进行利用,提出了Exercise-Enhanced Recurrent Neural Network (EERNN) 进行学生表现预测。

模型

模型主要包括三部分:1.使用bi-LSTM对题面信息进行表征编码;2.使用另外的LSTM结构进行知识追踪的学习;3.对于最终的预测,将EERNN进行拓展,一是加入马尔可夫性,二是采用了attention机制。

模型优点:

作者所提出的模型优点在于:

  1. 模型输入不仅利用了学生做题序列,也将题目信息加入其中。
  2. 模型由于加入attention机制,更加聚焦于当时的效果而不是长期依赖的影响。
  3. 模型解决了冷启动问题,即对于新来的学生或题目,都可以进行预测。

算法过程:

S S 表示学生集合, E E 表示练习集合,第i个学生的做题过程表示为: s i = { ( e 1 i , r 1 i ) , ( e 2 i , r 2 i ) , , ( e T i , r T i ) } s _ { i } =\left\{ \left( e _ { 1 } ^ { i } , r _ { 1 } ^ { i } \right) , \left( e _ { 2 } ^ { i } , r _ { 2 } ^ { i } \right) , \ldots , \left( e _ { T } ^ { i } , r _ { T } ^ { i } \right) \right\} ,其中 e j i e _ { j } ^ { i } 表示学生i做过的第j个练习, r j i r _ { j } ^ { i } 表示对应得分(0或1)。每个练习题是由多个词组成的,对应表示为: e i = { w 1 i , w 2 i , , w M i } e _ { i } = \left\{ w _ { 1 } ^ { i } , w _ { 2 } ^ { i } , \ldots , w _ { M } ^ { i } \right\} 。模型要解决的任务是根据学生做题序列和对应的题目信息,预测在下个题目上的得分情况:

r ~ T + 1 = P ( r T + 1 = 1 ( e 1 , r 1 ) , ( e 2 , r 2 ) , , ( e T , r T ) , e T + 1 ) \tilde { r } _ { T + 1 } = P \left( r _ { T + 1 } = 1 | \left( e _ { 1 } , r _ { 1 } \right) , \left( e _ { 2 } , r _ { 2 } \right) , \ldots , \left( e _ { T } , r _ { T } \right) , e _ { T + 1 } \right)

在这里插入图片描述

上图为模型架构图, e i e_{i} 表示第i步对应的练习题, x i x_{i} 是对应题目编码后的向量, r i r_{i} 为对应答题结果, x ~ i \tilde{ x } _ { i } 为送入模型的输入,具体公式如下:

x ~ t = { [ x i , o i ] i f r i = 1 [ o i , x i ] i f r i = 0 \tilde{x}_{t}=\left\{\begin{matrix} [x_{i},o_{i}] & if &r_{i}=1 \\ [o_{i},x_{i}] & if & r_{i}=0 \end{matrix}\right.
其中 o i o_{i} 是把 r i r_{i} 扩展为 x i x_{i} 相同维度后的向量。
EERNN模型的马尔可夫特性体现在,T+1时刻输出只与T时刻状态有关,具体如下公式所示:
y T + 1 = Re L U ( W 1 [ h T x T + 1 ] + b 1 ) y _ { T + 1 } = \operatorname { Re } L U \left( \mathbf { W } _ { 1 } \cdot \left[ h _ { T } \oplus x _ { T + 1 } \right] + \mathbf { b } _ { 1 } \right)
r ~ T + 1 = σ ( W 2 y T + 1 + b 2 ) \widetilde { r } _ { T + 1 } = \sigma \left( \mathbf { W } _ { 2 } \cdot y _ { T + 1 } + \mathbf { b } _ { 2 } \right)

模型引入注意力机制后,其核心在于使用了题目信息的相似性作为attention的score,具体公式如下:

h a t t = j = 1 T α j h j , α j = cos ( x T + 1 , x j ) h _ { a t t } = \sum _ { j = 1 } ^ { T } \alpha _ { j } h _ { j } , \alpha _ { j } = \cos \left( x _ { T + 1 } , x _ { j } \right)

模型采用的损失同样为交叉熵损失,公式如下:
L = t = 1 T ( r t log r ~ t + ( 1 r t ) log ( 1 r ~ t ) ) \mathcal { L } = - \sum _ { t = 1 } ^ { T } \left( r _ { t } \log \widetilde { r } _ { t } + \left( 1 - r _ { t } \right) \log \left( 1 - \widetilde { r } _ { t } \right) \right)

结论

文章所提出模型和DKT模型的核心区别在于,1. 在输入中使用了题目信息,2.使用题目编码后的向量做cosine相似性计算,作为注意力机制的score应用与模型。

猜你喜欢

转载自blog.csdn.net/Zoe_Su/article/details/84566409
今日推荐