Macro Discourse Relation Recognition via Discourse Argument Pair Graph阅读笔记

[标题]
《Macro Discourse Relation Recognition via Discourse Argument Pair Graph》

[代码地址]

[知识储备]

一、背景与概览

1.1 相关研究

1.2 贡献点

  • 首次使用gnn于中文篇章关系识别
  • 性能好

1.3 相关工作

二、模型

2.0 概括

概括描述建图和模型。

  • argument-word: the keyword information TF-IDF,先验的注意力信息
  • word-word: the global information PMI,句子之间的主题连贯性
    巴拉巴拉。

2.1 建图

2.1.0 节点表示

在整个语料上建图,图中包含所有的argument节点和word节点。
词向量使用word2vec,可以缓解冷开始问题,也带来更加精确的单词语义信息
argument使用词向量的平均。

2.1.1 连边

单词-单词:使用PMI指标,正的PMI值代表了单词之间较高的语义联系。
在这里插入图片描述
单词-句子:TF是单词在句子中出现的频率,IDF是对数归一化后反向的文档的频率(? IDF is the
frequency of the inverse document after log normalization)。

自环:不仅学习新的,也能保留旧的。

2.1.2 图的构建

在这里插入图片描述

2.2 模型

在这里插入图片描述

2.0 输入层

A and H 0 H^0 H0

2.1 编码层

经过第一层卷积网络,句子聚合了与它相连的单词;单词聚合了与它相连的单词。
经过第二层卷积网络,句子聚合了由“与它相连的单词”所带来的全局语义信息。

2.2 分类层

原来一个argument是一个段落,有多个句子,先各自concat得到 H a r g 1 H_{arg1} Harg1 H a r g 2 H_{arg2} Harg2,再concat得到 H H H,再进行分类。
交叉熵:
在这里插入图片描述

三、实验与评估

基准模型:

  • LSTM
  • MSRM:利用了全局信息,但是忽略了句子中重要单词的不一致性。
  • STGSN:序列模型不能很好的捕捉长文本的句内依赖;对于长文本attention也不好使;忽略了全局信息。

四、消融实验

去除 w-w边:不用PMI—>1?
去除 w-o边:不用TFIDF—>每一个argument对于它的每一个单词的权重=1/length

五、结论与个人总结

得到的句子向量表示可能迁移到其它任务
未来的工作是如何更好地建模

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/114022266