2018腾讯广告算法大赛竞赛记录

　　深度学习的火热带动了各种大数据以及算法的发展。第一次参加与kaggle相似大平台的数据挖掘比赛。
　　从4月18号开始对相关文献进行大量的阅读，仔细研究了腾讯内部员工发布的baseline。在Kaggle比赛过程得到感受就是清晰领会到了ML和DM之间的不同：ML一般从模型或者算法出发，讲的是模型或者算法本身存在的不合理的地方，然后提出新的假设，从而去优化模型或算法。而DM是从数据本身问题本身出发，希望针对问题的特性来设计最适合的方案。
　　通过此次比赛研究工作过程中，在实践研究工作前应当寻找，思考有研究价值的方向，然后对相关文献进行大量的阅读，才能有一个良好的项目研究计划。进行科研项目研究还应当学会多种数据收集，数据处理，以及对数据的分析，从而指导下一步实验。

一、数据集构造方面

1.数据挖掘是整个KDD过程中的重要步骤，其使用数据挖掘算法从数据库中提取用户感兴趣的指示，并且以一定的方式表示出来。
2.分析题目后，多为数据集是一个数据集合，通常从数据层数的子集构造，并组织和汇总成一个由一组唯独和度量值定义的多为结构。一个多为数据集最多可包含128个唯独和1024个度量值。数据集train.csv中正负样本是1：50，正负样本不均衡的问题。在构建模型的时候是要用部分数据。方法就是对负样本下采样（down sampling），对正样本上采样（upsampling），尽量使得正负样本均衡。
3为了能够使用关系表描述多为数据库中的多维信息，关系联机分析处理（Relational Online Analytical Processing,ROLAP）将多为结构进行分解，利用两种表（维表和事实表）来表达多维信息。数据分布在6个.csv文件中，需要做的工作就是merge，需要找对连接的标签和采用的连接方式，使用了完全外连接。

二、特征上的一些方法

在广告点击率和转化率的特征中，特征可以分为三类：

数值特征（numberical feature）
有序特征（ordinal feature）
无序特征（categorical feature）

队伍队对于特征的处理：
1.使用统计频率、转化次数特征、转化率特征代替onehot，由于数据量极大，one-hot编码会出现一个很大维数的稀疏矩阵，有一定可能运行好长时间不出结果。
2.对训练集和测试集中的重复样本构造是否第一次点击，是否中间点击，是否最后点击，第一次和最后一次间隔特征
3.大量使用组合特征，主要是用户特征和广告上下文特征。成绩在baseline附近的新手基本上没有考虑组合特征以及特征之间的相关性直接使用单特征one-hot编码。

三、模型构建

使用的模型是大维度与雪花模型。
在数据仓库中，客户维度和产品维度是典型的大维度。大维度表采用雪花模型的数据组织，是一种有效的方法。对产品维度来说，产品分属于产品分类。对客户唯独来说，客户分属于地区，地区属于国家。注意线下线上的一致性
1.首先处理4个G的用户特征
2.拼接用户特征，广告特征
3.将单取值的离散特征使用稀疏方式one-hot
4.将多取值的离散特征使用稀疏方式向量化
5.线下测试
6.线上提交