CVR预估模型-ESMM

文章基于 Multi-Task Learning 的思路,提出一种新的CVR预估模型——ESMM,有效解决了真实场景中CVR预估面临的数据稀疏以及样本选择偏差这两个关键问题。 

Motivation

不同于CTR预估问题,CVR预估面临两个关键问题:

1 样本选择偏差(sample selection bias,SSB):传统CVR模型通常以点击数据为训练集,其中点击未转化为负例,点击并转化为正例,但是训练好的模型实际使用时,则是对整个空间的样本进行预估,而非只对点击样本进行预估。即传统的推荐系统仅用Xc(click=1的样本集)中的样本来训练CVR预估模型,但训练好的模型是在整个样本空间X(曝光的)去做推断的。

        由于点击事件相对于曝光事件来说要少很多,因此只是样本空间X的一个很小的子集,从Xc上提取的特征相对于从X中提取的特征而言是有偏的,甚至是很不相同。从而,按这种方法构建的训练样本集相当于是从一个与真实分布不一致的分布中采样得到的,这一定程度上违背了机器学习中独立同分布的假设。这种训练样本从整体样本空间的一个较小子集中提取,而训练得到的模型却需要对整个样本空间中的样本做推断预测的现象称之为样本选择偏差。样本选择偏差会伤害学到的模型的泛化性能。conventional CVR models are trained with samples of clicked impressions while utilized to make inference on the entire space with samples of all impressions

2 数据稀疏(data sparsity,DS):推荐系统展现给用户的商品数量要远远大于被用户点击的商品数量,同时有点击行为的用户也仅仅只占所有用户的一小部分,(作为CVR训练数据的点击样本远小于CTR预估训练使用的曝光样本),因此有点击行为的样本空间Xc相对于整个样本空间X来说是很小的,通常来讲,量级要少1~3个数量级。在淘宝公开的训练数据集上,Xc只占整个样本空间X的4%。这就是所谓的训练数据稀疏的问题,高度稀疏的训练数据使得模型的学习变得相当困难。

一些策略可以缓解这两个问题,例如从曝光集中对unclicked样本抽样做负例缓解SSB,对转化样本过采样缓解DS等。但无论哪种方法,都没有很elegant地从实质上解决

猜你喜欢

转载自blog.csdn.net/pipisorry/article/details/120943846
今日推荐