Kaggle比赛整理—Playground
第3部分:训练场 Playground
训练场 Playground
里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。
2018-08-27整理:以下按时间顺序排列,从新到旧。
比赛数量统计:
8 active competitions
34 completed competitions
正在进行的比赛 - active competitions: 8 :
* Predict future sales
介绍:
商品销售额预算
此比赛为How to win a data science competition提供一个实际项目实战。
给出一个时间段的商品的日常销售额,预测下个月的商品的总销售额。
中文介绍参考
* New York City taxi fare prediction
介绍:
纽约出租车票价预测。
给定乘客的上下车位置,预测票价。
* Flavours of physics
介绍:
罕见的尚未确定的物理现象预测。
Store Item demand forecasting
介绍:
商品销售额预测。
根据5年的商品销售信息,预测不同商店的不同商品3个月的销售额。
中文介绍链接
* Costa Rican household poverty prediction
介绍
贫困人口预测。
基于历史数据,使用机器学习方法来预测家庭的贫困水平。
中文参考链接
* Forest-cover-type
介绍:
根据地图预测森林种类
中文参考链接
中文参考链接
中文参考链接
中文参考链接
* Whats cooking
介绍:
利用存放原素材的json预测菜品。
中文参考链接
* Movie review sentiment analysis
介绍:
电影评论感情色彩分类,The Rotten Tomatoes上的电影评论,将评论分为,负面的,有点负面,不好不坏, 有点正面及正面5种。
* 中文参考链接
已结束的比赛 - completed competitions: 34 :
* Humpback Whale Identification Chanllenge
介绍:
通过鱼鳍识别鲸类
* DonorsChoose application screening
介绍:
教师项目提议接受预测
* Plant seedlings classification
介绍:
植物苗分类
中文参考链接1
中文参考链接2
中文参考链接3
* Dog breed identification
介绍:
狗的品种分类
中文参考链接1
中文参考链接2
中文参考链接3
* Spooky author identification
介绍:
恐怖小说家身份识别,通过文本预测作者
中文参考
* New York City taxi trip duration
介绍:
通过起始位置和停止位置以及乘客数量等来预测纽约市出租车行程的总时间。
中文参考
链接中把pickup与dropoff的意思理解错了,pickup指接乘客,dropoff指乘客下车
* Invasive species monitoring
介绍:
检测拍摄的森林及图片中是否存在入侵性绣球花。
中文参考链接
* ` mania 2017
介绍:
2017 NCAA 篮球赛结果预测。
该竞赛两个阶段:1,根据以前的数据测试预测;2,预测2017的竞赛
* Transfer learning on stack exchange tags
介绍:
数据集:Stack Exchange 问答网站上的关于biology, cooking, cryptography, diy, robotics, and travel六个方向的titles, text, and tags
预测这些文字与物理学的相关性,用多分类标签表示。
* Dogs vs cats redux
介绍:
图片中的猫狗分类。
网上的实现方法很多,这里不多类举了。
* Leaf classification
介绍:
根据树叶的图片分类树叶类型。
相通与很多图片分类。
* Santas uncertain bags
介绍:
圣诞老人的礼物打包。
将9种类型的礼物装到1000个袋子中,并且保证每个袋子不超过50磅。
* Ghouls Goblins and Ghosts Boo!
介绍:
通过一些特征(骨头的长度,头发的长度,颜色等)预测鬼一类的类型。
中文参考链接1
中文参考链接2
* Painter by numbers
介绍:
通过画作预测作者,画家预测-是不是每一个画家都有一个画中的指纹
第一名方案
* Integer sequence learning
介绍:
数字序列学习-让机器学习序列数字的规则,预测下一个数字。
数据包是On-Line Encyclopedia of Integer Sequences上的有序数列。
* Shelter animal outcomes
介绍:
收容所动物的结局预测,通过品种,颜色,性别及年龄来预测动物的结局。
中文参考链接1
中文惨老链接2
* Kobe bryant shot selection
介绍:
科比投篮命中与否估计
数据包:科比20年的投篮记录以及赛场信息,预测其中去掉标签的科比的投球命中与否。
中文参考链接1
中文参考链接2
* San Francisco Crime Classfication
介绍:
旧金山的犯罪种类预测
数据包:12年的犯罪报告,根据犯罪发生的时间及地点估计犯罪的类型
中文参考链接1
中文参考链接2
中文参考链接3
* What is cooking
介绍:
菜品预测
数据包:json格式,提供索引,烹饪方法,以及原材料清单,预测菜品。
中文参考链接1
中文参考链接2
* Denoising dirty documents
介绍:
文档图片去噪
数据包:是文档被揉搓,水迹等各种原因被不干净平整的的图片,要求训练模型,输出去掉这些噪声的文档图片。
* Introducing kaggle scripts
* Random Acts of pizza
介绍:
pizza获得预测,关于社区上的pizza的获得请求成功与否的预测。可能是国外一个社区的特殊用法,未做详细查看。
* Poker rule induction
介绍:
数据包:由52张牌中抽取5张牌,有311,875,200种可能性。让机器去学习这5张牌是有一个对,还是一个炸等等。
数据集中带标签训练集:25,010,去标签测试集 1,000,000,让机器估计每个测试数据的类别(对,炸等)。
* Bike sharing demand
介绍:
数据包:2年中每小时的自行车使用情况(总数,时间,天气等等)。训练模型使其有能力估计测试集中每小时的车辆使用数量。
中文参考链接
中文参考链接
中文参考链接
英文链接
* Forest cover type prediction
介绍:
森林类型预测,根据森林的一些信息,推测森林的植被主要覆盖类型。
中文参考链接
* Billion word imputation
介绍:
缺失文字预测。
* Finding elo
介绍:
围棋选手的FIDE Elo预测。
* Sentiment Analysis on Movie Reviews
介绍:
电影评论的感情色彩分类(与后期相似)。
* Learning social circlesin Networks
介绍:
给定主体(主体)的朋友,朋友的特征,以及圈子的所有人列表。猜测可能是分类所有主体的所属的圈子的。
* CIFAR-10-Object recongnition in Images
介绍:
数据分类CIFAR-10-Object数据集。
* The analytics edge
介绍:
快乐检测。
包含个人信息(出生日期,性别等以及对问题的回答结果),设计模型推测对应的人的幸福状态。
* Conway’s reverse game of life
介绍:
基于Game of Life 游戏,给出最后的 cell board 情况,推测start board。
中文参考
* Dogs vs. Cats
猫狗分类
参考链接
* Partly Sunny with a chance of hashtags
从文字信息中提取其中感情、时态以及天气状况