【NLP数据竞赛】“达观杯”文本智能处理挑战赛（一）数据初识

其他 2019-04-14 03:09:20 阅读次数: 0

一、竞赛介绍

网址：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_竞赛信息.html

任务：建立模型通过长文本数据正文(article)，预测文本对应的类别(class)

数据：包含两个csv文件
1、train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！
2、test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。注：test_set与train_test中文章id的编号是独立的。

评分标准：

binary-classification
采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。

其中，Pi是表示第i个种类对应的Precision， Ri是表示第i个种类对应Recall。

二、数据初识

使用pandas的read_csv方法读取数据
打印出train_data的前十条数据：

打印出test_data的前十条数据：

打印出文件的信息：

检测数据是否有空值：

划分训练集和验证集：

打印训练集和验证集的信息：

参考博客：
https://blog.csdn.net/weixin_38966454/article/details/89046445

猜你喜欢

转载自blog.csdn.net/qq_35175666/article/details/89047166

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（一）数据初识

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（四）线性回归LR+支持向量机SVM

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）word2vec词嵌入

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）TF-IDF学习笔记

【数据竞赛】“达观杯”文本智能处理挑战赛２

“达观杯”文本智能处理挑战赛

达观杯文本智能处理挑战赛

“达观杯”文本智能处理挑战赛代码示例

2018“达观杯”文本智能处理挑战赛心得

“达观杯”文本智能处理挑战赛１

达观杯”文本智能处理挑战赛

sklearn文本特征提取与“达观杯”文本智能处理挑战赛

“达观杯”文本智能处理挑战赛心得体会

数据竞赛-“达观杯”文本智能处理-Day1

2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4解决方案

达观杯NLP挑战赛复盘

数据竞赛-“达观杯”文本智能处理-Day6：模型优化

数据竞赛-“达观杯”文本智能处理-Day5：LightGBM模型

数据竞赛-“达观杯”文本智能处理-Day3：word2vec实践

数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践

达观杯文本智能信息抽取挑战赛四到十名队伍分享

达观杯文本智能信息抽取挑战赛前三名队伍分享

达观杯数据竞赛系列（一）

【达观杯】数据竞赛学习篇（一）

“达观杯”文本分类挑战赛新手入门代码

ICPR MTWI 2018挑战赛网络图像的文本识别之数据预处理

达观杯数据竞赛系列（四）

【达观杯】数据竞赛学习篇（二）

达观杯数据竞赛系列（二）

【达观杯】数据竞赛学习篇（三）

今日推荐

“开源信徒”周鸿祎开源360智脑大模型

华为ensp中vrrp虚拟路由器冗余协议原理及配置命令

基于Python爬虫广东广州水酒店宾馆数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状

知识融合：知识图谱构建的关键技术

文心一言收费还是免费：全面解析其价格策略与服务价值

百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

【STM32项目】基于STM32多传感器融合的新型智能导盲杖设计（完整工程资料源码）

文生视频大模型Sora的复现经验

腾讯云函数计算技术：云原生架构下的Serverless与微服务新篇章

干货分享｜JumpServer 三种常见的文件传输方式效果对比

【榜单公布】2023年度征文活动已结束

周排行

Java中关于时间的操作及格式化

《HTML5与CSS3基础教程》第五章学习笔记图像

nginx下安装PHP发生问题的逐步解决

HDU-1048，The Hardest Problem Ever（字符串处理）

新一代多媒体技术与应用的部分课后题

Shader 绘制特殊图形

Oracle数据库三种备份方案

CodeForces - 983B XOR-pyramid(两次区间DP/记忆化DFS)

Python3基础语法——变量与运算符

（转载）KMP算法详解（原创）详解KMP算法

每日归档

更多

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)

2024-04-07(4)