【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图 - 代码天地

【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图

其他 2021-02-09 07:47:32 阅读次数: 0

目录：NYT-Wiki数据集分析

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例
 【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数
 【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 绘制Relation分布图

第二节，获得了三个子集的描述：类别数和实例数。

本节介绍绘制数据集的Relation分布图：
在这里插入图片描述
图中横坐标是不同的Relation，纵坐标是每个Relation的Instances数。

1. 查看数据分布

查看数据分布主要包括三步：

获取数据集的每条数据（json格式）
建立一个词频dict，格式为：
{"class name 1": count1, "class name 2":count2, ...}
使用matplotlib进行图像绘制

2. 代码

import matplotlib as mpl
import matplotlib.pyplot as plt

def plot_relation_distribution(dataset_path):
    # 1. 获取 Train Set 的数据
    rel_fre_dict = {
    
    }
    with open(dataset_path, 'r', encoding = 'utf-8') as f:
        # 2. 建立词频表
        for line in f.readlines():
            line = json.loads(line) # loads(字符串)， load(文件名字)
            if line['relation'] not in rel_fre_dict.keys():
                rel_fre_dict[line['relation']] = 1
            else:
                rel_fre_dict[line['relation']] += 1

    # print("train set中的Relation个数：",len(train_rel_fre_dict))

    # 3. 绘图
    x = []
    y = []
    width = []
    sorted_rel_fre_dict = sorted(rel_fre_dict.items(), key=lambda kv: (-kv[1])) # 按值排序
    for i in sorted_rel_fre_dict:
        x.append(i[0])
        y.append(i[1])
        width.append(1)
    plt.figure(figsize = [40, 10])
    plt.bar(x,y,width, align='center', alpha=0.5, clip_on = True)
    plt.ylim([0, 5000]) # 限制y轴数据的取值范围
    plt.xlabel("relation name")
    plt.ylabel("# of relation")
    plt.title(str(dataset_path)+' relation number statistic')
    plt.tick_params(axis='x', colors='red', length=13, width=3, rotation=90)
    plt.savefig(str(dataset_path)+'.png')

plot_relation_distribution(train_path)
plot_relation_distribution(valid_path)
plot_relation_distribution(test_path)

猜你喜欢

转载自blog.csdn.net/xiangduixuexi/article/details/107055012

【数据集分析】NYT-Wiki关系抽取数据集分析（三）—— 直观的关系实例分布图

【数据集分析】NYT-Wiki关系抽取数据集分析（一）—— 理解单条实例

【数据集分析】NYT-Wiki关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】TACRED关系抽取数据集分析（三）—— Relation Distribution

【数据集分析】TACRED关系抽取数据集分析（二）—— 统计类别和实例数

【数据集分析】TACRED关系抽取数据集分析（一）—— 理解单条实例

关系抽取数据集介绍

关系抽取 -- 评测数据集简述

【数据集分析】TACRED关系抽取数据集分析（四）—— train set 和 valid set中是否有重复数据

一文看懂数据分析各种图形（箱型图、数据分布图、线性回归图、相关关系图）（阿里天池）

ChatIE：通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取，并在NYT11-HRL等数据集上超过了全监督模型

missingno绘制缺失数据分布图

七种数据分布图

七种数据分布图

七种数据分布图

python实现实时肺炎患者数据分布图

数据集Advertising.csv——分析出广告媒体投入与销售额之间的关系

spark 三种数据集的关系（二）

数据分析实例-MovieLens 1M 数据集

数据分析实例-USA 政府的数据集

python数据分析及可视化（十二）Seaborn可视化（绘图风格、颜色风格、线性关系可视化、分类数据可视化、数据集分布可视化、关系矩阵图）

技工误差的统计分析方法、分布图应用

基于Python深度学习实现主动学习的关系抽取方法毕业论文+项目源码及数据集

RDD（弹性分布式数据集）的分析

VOC数据集颜色对应关系与代码

【Demo】Python + Echarts 简易实现一个数据分布图

R语言根据DEM数据绘制研究区内的等高线分布图

内存分布图

分布图

正态分布图

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)