【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数 - 代码天地

【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数

其他 2021-02-09 07:46:47 阅读次数: 0

目录

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例
 【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数
 【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution
【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

第一节，我们查看了每条数据的组成，并将每条数据都规范了自己喜欢的Json格式，方便后续操作对数据的取用。

本节统计一下数据集。

1. 统计数据集

目的就是填写下面表格中。

数据集	类别数（关系数）	实例数（句子数）
Train Set
Valid Set
Test Set
Total	——————

获取上表所示统计信息包括两步：

读数据集，
统计每个数据集中class和intances的个数并对instance数目求和。

2.代码，基于第一节转化格式后的数据集

import json
def dataset_description(path):
    rel_list = [] # 存放relation的列表
    count = 0 # 存放instances的计数
    with open(path, 'r', encoding = 'utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = json.loads(line) #loads后面括号中是字符串， load后面括号中写文件名字
            if line['relation'] not in rel_list:
                rel_list.append(line['relation'])
        count = len(lines)
        print(str(path)+"中类别数{}，实例数{}".format(len(rel_list), count))
    return rel_list, count


rel_list, count1 = dataset_description(train_path)
rel_list, count2 = dataset_description(valid_path)
rel_list, count3 = dataset_description(test_path)
print("实例数一共有：",count1+count2+count3)

输出：

tacred_train.txt中类别数42，实例数68124
tacred_valid.txt中类别数42，实例数22631
tacred_test.txt中类别数42，实例数15509
实例数一共有： 106264

参考感谢

[1] TACRED官网：https://nlp.stanford.edu/projects/tacred/

猜你喜欢

转载自blog.csdn.net/xiangduixuexi/article/details/107224875

【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图

【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution

大数据实践（二）：对葡萄牙银行数据集的特征之间的关联关系进行分析和探索，对于现有营销方案给出建议。

数据分析实例-USA 政府的数据集

数据分析实例-MovieLens 1M 数据集

COCO数据集80个类的实例数量

多元统计分析-橄榄油数据集

从COCO数据集和VOC数据集提取特定的类别

杜凯杰教学数据分析：Logistic（逻辑回归）算法完整实例数据集建模处理，缺省值处理、类型转换、建模预测

关系抽取数据集介绍

COCO 数据集分析和coco API使用

机器学习 Rider数据集分析和预测

机器学习 CarRentalData数据集分析和预测

cityscapes数据集上的类别统计分布

Python-鸢尾花数据集/月亮数据集的线性LDA、k-means和SVM算法二分类可视化分析

在数据分析过程中对合并的训练集和测试集进行标记

第17节 R语言分析：生物统计数据集 R 编码分析和绘图

使用python对label生成的xml及labelme生成的json数据集统计类别及类别的数量

[译]使用 Pandas 对 Kaggle 数据集进行统计数据分析

不同sqlserver实例数据交换

工厂模式实例数据分类导出

Mysql多实例数据库

rxjs使用of:举例数据的实例

VOC、COCO数据集类别

关系抽取 -- 评测数据集简述

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)