研读论文报告—《大规模英语动词多词表达式注释语料库的构建》

版权声明: https://blog.csdn.net/bensonrachel/article/details/89323694

论文出处:2018paper of LREC

http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf

背景:多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。

基于上述背景:此实验主要是构建一个全新的动词多词表达式语料库,非充满技术含量的实验,主要方法是众包技术,人工注释,以及各种语法知识。

数据来源:华尔街日报大量英语文章的主体。开源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations

格式如上图。

1.介绍:从华尔街日报中抽取了大量的VMWES并做好排序和初步筛选工作。

              筛选规则有去掉be动词的以及带有名词的VMWES。

              做好目录分类:介词动词,动词小品词,轻动词短语,动词加名词加介词,半固定结构。

2. 构建注释语料库:众包技术(用来消歧义)(众包技术:简单来说就是技术问题靠大家解决,分配给互联网上自愿完成任务的                                  个人)  详细可以看这里~

                                web注释平台,给专业人士一个平台对VMWES进行注释。对注释员进行非常严格的筛选。     

3.检查:对于出现了重复及包含的问题:  进行合并或者取包含词(不是被包含那个)

4.展望:继续扩大语料库以及挖掘VMWES更多的信息。

我把我的注释PDF放在这里(我的资源)。(不知道为什么现在不能规定积分,默认了下载要五个积分。。)

第一次研读论文,经验不足,以此记录。

猜你喜欢

转载自blog.csdn.net/bensonrachel/article/details/89323694