关系抽取 -- 评测数据集简述 - 代码天地

关系抽取 -- 评测数据集简述

其他 2019-11-01 17:01:18 阅读次数: 0

常用数据集

ACE 2005: 599 docs. 7 types;
SemiEval 2010 Task8 Dataset:
- 19 types
- train data: 8000
- test data: 2717
NYT+FreeBase 通过Distant Supervised method 提取，里面会有噪音数据:
- 53 types
- train data: 522611 sentences; 需要注意的是，这里面有近80%的句子的标签为NA
- test data: 172448 sentences;

下面以学习方法的不同来对这些文章进行分类：

Fully Supervised Learning
Distant Supervised Learning
Joint Learning with entity and relation
Tree Based Methods

其中：

　　Fully Supervised 一般评测使用label完全准确的SemEval 2010 Task 8 数据集。

　　格式：　　　　

　　　　1 The <e1>microphone</e1> converts sound into an electrical <e2>signal</e2>.
　　　　2 Cause-Effect(e1,e2)
　　　　3 Comment:

　　　　其中第一行为sentence，第二行为两个entity的relation，第三行为备注。

　　Distant Supervised 使用NYT+FreeBase数据集。 SemEval 2010 Task 8 训练数据样例:

　　　　 1 m.0ccvx　　m.05gf08　　queens　　belle_harbor　　/location/location/contains　　.....officials yesterday to reopen their investigation into the fatal crash of a passenger jet in belle_harbor , queens......　　###END###

　　　　一共6列，前两列为两个entity的Freebase mid, 第三四列为两个entity在句子中的string。第五列为relation，最后一列为sentence（有省略），以###END###结尾

这两个数据集相对来说用的最广泛。

　　在NYT数据集上，常用的有两个版本的数据集：

　　　　　27类关系，Zeng2015,Ji2017等用到的经过过滤之后的数据集，相对较小，以SMALL表示。

　　　　　53类关系，Lin2016 发布的数据集，相对较大，训练数据大概是小数据的4倍，以LARGE表示。

　　

　　

猜你喜欢

转载自www.cnblogs.com/dhName/p/11778016.html

关系抽取 -- 评测数据集简述

关系抽取数据集介绍

中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

Voc数据集简述

关系型数据库简述

使用MOT评测工具TrackEval评测自己的数据集

用TrackEval评测自己的数据集

【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution

【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图

简述ElasticSearch里面复杂关系数据的存储方式

UML类关系简述

简述Activity与Window关系

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

简述什么是数据模型，简述数据库、表和数据库服务器之间的关系。

Table Recognition Metric: 表格识别算法评测工具包及相关评测基准数据集

跨语言评测数据集之XNLI介绍

大模型评测数据集：MMLU、MMCU、C-Eval

简述关系型数据库和非关系型数据库

[转载]简述关系型数据库和非关系型数据库

简述 LLVM 与 Clang 及其关系

Mybatis与Hibernate，Spring的关系简述

rpc和webservice的关系简述

简述JDK，JRE，JVM的关系

关系抽取

基于Python深度学习实现主动学习的关系抽取方法毕业论文+项目源码及数据集

【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

大数据架构简述

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)