NRE论文总结：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification - 代码天地

NRE论文总结：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

其他 2019-01-09 21:28:01 阅读次数: 0

acl论文阅读（Attention-Based Bidirectional Long Short-Term Memory Networks for
Relation Classification，中科大自动化所 Zhou ACL 2016）

数据集详情

SemEval-2010 Task 8 dataset

training
8,000 sentences
testing
2,717 sentences
validation
randomly select 800 sentence

算法

blstm+attention机制，使用BLSTM对句子建模，并使用word级别的attention机制。

参数

rate
1.0
minibatch size
10
L2 regularization strength
10−5
the dropout rate
embedding layer：0.3
LSTM layer： 0.3
the penultimate layer：0.5
Other parameters in our model are initialized randomly

效果

此论文所使用的方法F1值可以达到84.0，目前所有方法中最高的F1值为84.3（BLSTM (Zhang et al., 2015)），但此方法的缺陷是需要手动构造特征，而此论文是把数据灌入模型，不需要手动提特征。

算法详情

Input Layer：将原始句子输入该层，x_i:句子中的每个单词,T:句子中单词个数
embedding层：将每一个单词映射到一个低维向量，e_i：每个词的向量，可以是word2vec的结果；
LSTM层：利用BLSTM模型从step(2)中得到高级特征；
attention层：产生一个权重向量，并与LSTM的每一个时间点上word-level特征相乘得到sentence-level特征向量；
output层：将得到的senten-level特征向量用于关系分类。

疑惑

论文对lstm正反向结果的处理（即上文中的第三步）
和之前直接把lstm的最终正反向输出直接拼接相比，作者这里是把每一个单词的前馈输出与反馈输出逐个元素求和得到的向量作为最后的输出，关于这一块文中并没有给出具体解释。
Attention机制中权重的处理
和随机初始化不同的是，本论文中的权重和lstm层的输出有关，文中没有具体解释这样做的原因。

代码

没有找到论文的源码，从github找到一份类似思想的脚本进行调试，脚本调试过程。

其他

论文理解的不透，代码也处于很弱的阶段，且行且珍惜，祝自己保持初心！

猜你喜欢

转载自blog.csdn.net/leitouguan8655/article/details/83375929

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)