【论文笔记】Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention

背景

Challenge 1:
很难从孤立的句子中识别事件,因为同一个事件触发器可能在不同的上下文中表示不同的事件类型。
Challenge 2:
文档级信息对于ED也很重要,因为同一文档中的句子虽然可能包含不同类型的事件,但往往与文档的主题相关。
Challenge 3:
基于特征的方法有两大局限性。首先,其中使用的特征往往需要人工设计,可能涉及自然语言处理导致的错误传播;其次,它们通过构造推理规则来发现文档级的事件间信息,这既费时又难以使规则集尽可能完整。
Challenge 4:
由于受无监督训练过程的限制,文档级表示无法具体捕获与事件相关的信息。

模型

EDODEL模块

单词级embeddings

\(g_{it}=[w_{it},e_{it}]\)
\(h_{it}=[GRU_w^→(g_{it}),GRU_w^←(g_{it})]\)
\(u_{it}=tanh(W_wh_{it})\)
\(α_{it}=u^T_{it}c_w\)
\(s_i=\sum^T_{t=1}α_{it}h_{it}\)
\(E_w(α^∗,α)=\sum^L_{i=1}\sum^T_{t=1}(α^∗_{it}-α_{it})^2\)

句子级embeddings

\(q_i=[GRU_s^→(s_i),GRU_s^←(s_i)]\)
\(t_i=tanh(W_sq_i)\)
\(β_i=t^T_ic_s\)
\(d=\sum^L_{i=1}β_is_i\)
\(E_s(β^∗,β)=\sum^L_{i=1}(β^∗_i-β_i)^2\)

DEED模块

\(r_{jt}=[w_{jt},e_{jt},d]\)
\(f_{jt}=[GRU_e^→(r_{jt}),GRU_e^←(r_{jt})]\)
\(J(y,o)=\sum^L_{j=1}\sum^T_{t=1}\sum^K_{k=1}I(y_{jt}=k)logo^{(k)}_{jt}\)

DEEB-RNN模型的联合训练

\(J(θ)=\sum_{∀d∈ϕ}(J(y,o)+λE_w(α^∗,α)+µE_s(β^∗,β))\)

实验

数据集和超参数

数据集:ACE2005
维数:hidden-size:$GRU_w$300, $GRU_s$200, $GRU_e$300, $W_w$600, $W_s$400, 实体50
batch-size:25
dropout:0.5

猜你喜欢

转载自www.cnblogs.com/kisetsu/p/12092994.html