达观杯_比赛简介 - 代码天地

达观杯_比赛简介

其他 2018-09-24 05:17:26 阅读次数: 0

比赛内容

此次比赛，达观数据提供了一批长文本数据和分类信息，希望选手动用自己的智慧，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。

评分规则

评分算法
binary-classification
评分标准
采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。

其中，Pi是表示第i个种类对应的Precision， Ri是表示第i个种类对应Recall。

数据

数据内容

数据包括train_set和test_set两份csv文件

train_set.csv

此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：

第一列是文章的索引(id)
第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)
第三列是在“词”级别上的表示，即词语相隔正文(word_seg)
第四列是这篇文章的标注(class)。
注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！

test_set.csv

此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

数据大小

原始数据
训练集：(102277, 4)
测试集：(102277, 3)
TfidfVectorizer处理后对article和word进行拼接
训练集：(102277, 12503911)
测试集：(102277, 12503911)

数据下载地址

猜你喜欢

转载自blog.csdn.net/Datawhale/article/details/82634235

达观杯_比赛简介

达观杯比赛总结

达观杯比赛复盘专题

达观杯文本分类比赛

达观杯文本分类比赛 | (1) 比赛介绍

达观杯文本处理比赛深度学习实践

达观杯文本处理比赛（二）

达观杯文本处理比赛(一)

2018.08.17达观杯比赛历程（一）LR_V0

达观杯文本分类比赛 | (2) 单模型融合(机器学习模型)

达观杯_分类融合

达观杯_概率融合

达观杯linghtgbm(五)

达观杯-特征工程 1

达观杯_构建模型（三）lightGBM

达观杯_构建模型（一）linearSVM

达观杯文本分类竞赛 0

达观杯数据竞赛系列（一）

达观杯文本处理（一）

【达观杯】数据竞赛学习篇（二）

Datawhale-达观杯nlp复盘

达观杯数据竞赛系列（四）

达观杯数据竞赛系列（二）

【达观杯】数据竞赛学习篇（一）

【达观杯】数据竞赛学习篇（三）

“达观杯” 经验分享（排名：87/5986）

达观数据：kubernetes简介和实战

蓝桥杯比赛模板

蓝桥杯比赛安排

蓝桥杯比赛考点

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)