2018中国高校计算机大赛——大数据挑战赛(合作方:快手)

赛程介绍

赛程安排

       本次大赛分为初赛、复赛和决赛三个阶段,其中初赛均由参赛队伍下载数据在本地进行算法设计和调试,并通过大赛报名官网提交结果文件;复赛要求参赛者在科赛网的K-Lab平台上进行数据分析和处理,可使用平台提供的计算资源和工具包;决赛要求参赛者进行现场演示和答辩。

初赛(5月26日—6月30日)

       参赛队伍可从大赛官方网站下载数据,在本地进行算法调试,并在线提交结果。若参赛队伍在一天内多次提交结果,以当前最后提交的结果文件进行评测。初赛分为A阶段和B阶段。

A阶段

       5月26日12:00—6月26日23:00,系统每天进行2次评测和排名,评测开始时间为当天12:00和23:00,按照评测指标从高到低进行排序,定时更新排行榜。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

B阶段

       6月27日12:00-6月30日12:00。系统将在6月26日23:30更换测试数据,参赛队伍需再次下载数据文件。初赛成绩排行榜将选取6月27日起产生的成绩进行重新排名。系统每天进行2次评测和排名,评测开始时间为当天12:00和23:00,按照评测指标从高到低进行排序,定时更新排行榜。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

       初赛截止时间是6月30日12:00,TOP20团队需提交代码审核。初赛成绩符合要求且通过完成实名认证的排名前100名的参赛队伍将进入复赛。

复赛(7月15日-8月11日)

       复赛参赛队伍需要在科赛网的K-Lab平台上完成数据处理、建模、算法调试、生成结果等,所有比赛数据不可下载,可使用平台提供的计算资源和工具包。复赛分为A阶段和B阶段。

A阶段

       7月15日12:00-8月7日23:00。系统每天进行2次评测和排名,评测开始时间为当天12:00和23:00,按照评测指标从高到低进行排序,定时更新排行榜。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

B阶段

       8月8日12:00-8月11日12:00。系统将在8月7日23:30更换测试数据,参赛队伍应根据新的数据集提交结果文件。复赛成绩排行榜将选取8月8日起产生的成绩进行重新排名。系统每天进行2次评测和排名,评测开始时间为当天12:00和23:00,按照评测指标从高到低进行排序,定时更新排行榜。排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示

       复赛截止时间是8月11日12:00,TOP20团队需提交代码审核。复赛成绩符合要求的排名前10名的参赛队伍选手代表将受邀参加决赛。

决赛(8月18日)

       决赛将以现场答辩会的形式进行,晋级决赛团队需提前准备答辩材料,包括答辩PPT、参赛总结、算法核心代码。

       答辩现场,每支队伍面对评委有15分钟的陈述时间和10分钟的问答时间。评委将根据选手的技术思路、理论深度和现场表现进行综合评分。

       决赛分数将根据参赛队伍的算法成绩和答辩成绩加权得出,评分权重为复赛B阶段70%,决赛答辩30%。依据决赛分数评选出大赛奖项并举行现场颁奖。

赛题与评审介绍

赛题描述

      本次大赛基于脱敏和采样后的数据信息,预测未来一段时间活跃的用户。参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。

 

数据说明

      大赛提供脱敏和采样后用户行为数据,日期信息进行统一编号,第一天编号为 01, 第二天为 02, 以此类推,所有文件中列使用 tab 分割。

1.注册日志(user_register_log.txt

列名

类型

说明

示例

user_id

Int

用户唯一标识(脱敏后)

666

register_day

String

日期

01, 02 ..  30 

register_type

Int

来源渠道(脱敏后)

0

device type

Int

设备类型(脱敏后)

0

下载示例文件

2.APP 启动日志(app_launch_log.txt

列名

类型

说明

示例

user_id

Int

用户唯一标识(脱敏后)

666

day

String

日期

01, 02 ..30

下载示例文件

3.拍摄日志(video_create_log.txt

列名

类型

说明

示例

user_id

Int

用户唯一标识(脱敏后)

666

day

String

拍摄日期

01, 02 .. 30

下载示例文件

4.行为日志(user_activity_log.txt)

列名

类型

说明

示例

user_id

Int

用户唯一标识(脱敏后)

666

day

String

日期

01, 02 ..30

page

Int

行为发生的页面。每个数字分别对应“关注页”、”个人主页“、

”发现页“、”同城页“或”其他页“中的一个

1

video_id

Int

video id(脱敏后)

333

author_id

Int

作者 id(脱敏后)

999

action_type

Int

用户行为类型。每个数字分别对应“播放“、”关注“、

”点赞“、”转发“、”举报“和”减少此类作品“中的一个

1

下载示例文件

 

评审说明

提交结果格式

      我们将“在未来7天(即第31天至第37天)内使用过APP(在上述任一类型日志中出现过)的用户定义为“活跃用户”,参赛选手需要从“注册日志”中预测出这些用户。

      选手提交结果格式为:

列名

类型

说明

示例

user_id

Int

用户唯一标识

666

      要求每行一个 user_id,user_id 需要从提供给选手的“注册日志”中选取。

      每天会进行两次评分计算和排行榜更新,时间分别为中午 12:00 和晚上 23:00。如果选手在评分时间点之前有多次提交,评分程序会使用最后一次提交结果进行评分,并按照历史最优成绩确定排名。

初赛

  • 主办方提供1万量级的注册用户及他们在 30 天内的行为数据。参赛队伍可从大赛官方网站下载数据,在本地进行算法调试,并在线提交结果。若参赛队伍在一天内多次提交结果,以当前最后提交的结果文件进行评测。
  • 选手通过科赛网站提交结果,结果文件如下图,每行一个 user_id。 user_id 需要从提供给选手的“注册日志”中选取:

68

 3872

93482

  • 初赛分为A阶段和B阶段。A阶段:5月26日12:00—6月26日23:00,B阶段:6月27日12:00-6月30日12:00。系统将在6月26日23:30更换测试数据,参赛队伍需再次下载数据文件。初赛成绩排行榜将选取6月27日起产生的成绩进行重新排名。

说明:

      初赛截止时间是6月30日12:00,7月1日-7月8日,TOP20参赛队伍需提交代码,并对每位队员的在校证明进行审核,主办方参考排名和代码对提供在校证明的团队授予初赛奖项,同时TOP100参赛队伍需提交在校证明,审核通过后将进入复赛。请各位选手提早准备在校证明,以免因暑假影响参赛资格。点击下载在校证明:在校证明示例文档

      欢迎对本次赛事赛题感兴趣的非在校学生的选手参赛,初赛阶段全部选手可使用官方数据集参与比赛,但只有初赛成绩TOP100名的参赛队伍且每位队员都提供在校证明的队伍将进入复赛。

 复赛

  • 主办方提供10万量级的注册用户及他们在 30 天内的行为数据。
  • 主办方提供云主机给参赛选手使用,选手通过科赛网提供的脚本提交结果文件,具体脚本之后会提供给各位选手。
  • 复赛分为A阶段和B阶段,数据将会在8月07日23:30更换测试数据:采样同一个时间段另外一批用户的数据。选手需要在更换后的数据上重新进行预测和提交结果,最终的复赛排行榜以更换后的数据和选手的提交结果评分为准。

 

评估标准

      设参赛选手提交的用户集合为 M,实际上未来 7 天内使用过快手的用户集合为 N ,且集合 N 是提供给选手的注册用户的子集。

      选手提交结果的 F1 Score 定义为:

     

      最终使用 F1 Score 作为参赛选手得分。F1 Score 越大,代表结果越优,排名越靠前。


猜你喜欢

转载自blog.csdn.net/qq_38150441/article/details/80525437