【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据 - 代码天地

【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

其他 2021-02-09 07:46:17 阅读次数: 0

目录

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例
 【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数
 【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution
【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

1. 思路

有些数据集和很不规范，train set和valid set 会有重复数据，造成数据的泄露，当然，TACRED应该不会有这个问题，因为它是关系抽取数据集中大家认可度很高的数据集合，但是也可以分析一下。

2. 代码

import numpy as np

def diff_of_two_dataset(path_list):
    result = np.zeros((len(path_list), len(path_list)))
    dataset = []
    for path in path_list:
        f = open(path, 'r', encoding='utf-8')
        dataset.append(f)
    for i in range(len(dataset)-1):
        for j in range(i+1,len(dataset)):
            temp_data = dataset[i].readlines()
            for line in dataset[j].readlines():
                if line in temp_data:
                    result[i][j] += 1
    print(result)
                
pathList = [train_path, valid_path, test_path]
diff_of_two_dataset(pathList)

输出：
[[0. 0. 0.]
[0. 0. 0.]
[0. 0. 0.]]

该输出说明Train set 和 Valid set 和 Test set之间没有重复的instance。

猜你喜欢

转载自blog.csdn.net/xiangduixuexi/article/details/107225269

【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数

数据集划分——train set, validate set and test set

训练集(train set)，验证集(validation set)和测试集(test set)

【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例

set 是否添加了重复数据

训练集(train set) 验证集(validation set) 测试集(test set)

AI---训练集(train set) 验证集(validation set) 测试集(test set)

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

java 利用set去重复数据

set特性，去除list重复数据。

Set和Map数据

【PaddleDetection】创建labelimg的PascalVoC数据train.txt valid.txt

MINISTS TRAIN DATA-SET TUTORIAL

Train/Test/Validation Set Splitting in Sklearn

Tensorflow读取大数据集的方法，tf.train.string_input_producer()和tf.train.slice_input_producer()

scikit-learn用train_test_split随机划分数据集和训练集

caffe中train过程的train数据集、val数据集、test时候的test数据集区别

机器学习基础（五）之train和test数据集的分割和测试

set集合为什么不能存放重复数据

tensorflow数据读取机制tf.train.slice_input_producer 和 tf.train.batch 函数

kaggle 猫狗大战train和test数据集百度网盘

caffe：制作自己的数据集train.txt和val.txt，生成lmdb文件

最简单的Python数据集分割：将Dataframe自由分割成指定大小的test和train

【深度学习】数据集打标签：生成train.txt和val.txt

VOC格式或YOLO格式数据集划分train和val实现

Training Set Validation Set 和Testing Set之间的差别及关系

map 和set的使用求set的交集差集并集

表中是否有重复数据

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)