达观杯文本分类比赛 | (1) 比赛介绍

目录

1. 竞赛信息

2. 数据

3. 评分标准


1. 竞赛信息

比赛网址

自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

达观杯文本分类比赛,是篇章级别的长文本分类。输入一段长文本,输出与其对应的类别。

 

2. 数据

数据包含2个csv文件:

train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。

注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的(没有明文,用数字字符串做了编码)!

test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。 注:test_set与train_test中文章id的编号是独立的。

训练集和测试集的数据量均为102,277,共19个类别,平均长度大约1000+词。

 

3. 评分标准

评估指标选用macro-f1_score,即每个类别F1_score的算术平均数:

其中,Pi是表示第i个类别对应的Precision, Ri是表示第i个类别对应Recall。

更多分类问题评估指标可以查看我的另一篇博客:https://blog.csdn.net/sdu_hao/article/details/103533115

 

发布了364 篇原创文章 · 获赞 712 · 访问量 13万+

猜你喜欢

转载自blog.csdn.net/sdu_hao/article/details/104086214