展示广告中冷启动问题的图像特征学习

展示广告中冷启动问题的图像特征学习

论文名称:Image Feature Learning for Cold Start Problem in Display Advertising

摘要

在在线展示广告中,最新的CTR预估算法严重依赖于历史信息,对于没有任何历史信息的新广告效果是很差的。这就是冷启动问题。对于图像广告,现有最新的系统使用人工制作的图像特征如多媒体信息和SIFT来获取广告本身具有的吸引力部分。然而,这些人工制作的特征都是非常依赖于当前任务、不灵活、并且是启发式的。为了处理图像展示广告中的冷启动问题,我们提出了一种新的特征学习结构来直接在目标任务重从原始像素和用户反馈中学习到具有辨识度的图像特征。提出的这个方法是非常灵活的并且不依赖于人的启发性。在含有470亿记录的现实世界数据集上进行大量的实验显示了我们的特征学习方法明显优于现有的人工制作的特征方法,并且能够提取有辨识度和有意义的特征。

1 引言

在线广告是一项快速增长的数十亿美元的业务,大量IT公司如谷歌、腾讯和百度都从在线广告中获得大量收益。由于越来越多人更爱网上购物,为了对网上用户展示他们的广告的广告主也大量增长。图像广告因其简洁、直观鹗易于理解而具有巨大的优势。在本文中,我们专注于展示广告中的图像广告。
精准预估广告选择的CTR是广告网络中的核心任务。当一个用户点击广告时,广告主支付给广告网络,所以最有吸引力的广告展示给用于不仅仅增加了收入,而且提升了用户体验。最好的点击预估算法严重依赖于历史信息,比如历史的CTR,广告ID和广告的种类。由于成熟而稳定的广告的CTR变化不大,这些算法在老广告上效果很好,然而,没有充足的历史信息的情况下,他们不适合于新广告的CTR预估。
新广告是非常重要的。在快速变化的市场中,用户很容易对就广告产生视觉疲劳感,所以广告主需要频繁的更新他们的广告,因此,大多广告的预期寿命都很短。除此之外,越来越多的新的广告主希望通过广告网络来展示他们的广告。在这种情况下, 新广告展所有广告的非常大的一部分。如果点击预测系统对新广告的关注不够,就不能积累新广告上新用户的反馈,最后会进入自毁循环中。
为了解决新图像广告中的冷启动问题,现有预测系统使用图像特征来识别具有相似特征的广告,从而预测新广告图像的CTR。由于隐私问题,一些广告系统不允许使用用户的个人信息,在本文中,我们专注于学习广告中更好的图像特征,并且对于未来的讨论,我们离开图像广告的个性化用户口味。
现有图像特征在图像展示广告中的使用大多为人工设计的特征,他们从不同的角度如亮度、颜色、清晰度、模糊、细粒度、第三准则、简单性、视觉权重、动态、色彩情感来设计。其他的一些人工制作的特征专门为目标识别任务来设计,如SIFT特征。然而,这些人工制作的特征在图像广告中应用的效果并不好。首先,他们不适合点击预估任务,这些视觉特征都不是为了点击预估任务来专门设计的,他们都是具有有限表达能力的低维特征,极少数能精准捕捉到影响点击预估任务的关键因子。第二,他们不够灵活,由于任务的不同,影响点击动作的关键因子也会随着时间而改变。就拿迷你裙来说,吸引人的关键因子可能是1990年代的潮流色彩,但是之后变成了复杂的图像或者不受颜色特征影响的更加时尚的设计。更糟糕的是,新的人工制作的特征严重依赖于人的启发性,因此,他们很难设计,容易出错,可能还是不完整的。
为了解决快速演变的图像展示广告中的冷启动问题,我们提出了从在线广告中来学习图像特征的方法。我们提出了一个新的特征学习结构来直接从原始像素和目标任务重的用户反馈学习最具有判别性的图像特征。提出的方法非常灵活并且不依赖于人的启发性思维。在图像特征不再有效的情况下,我们只需要用最新的数据集重新训练我们的特征学习模型即可。在含有470亿记录的现实世界数据集上进行试验表明我们的特征学习方法明显由于人工制作的特征,并且能够提取有辨识度和有意义的特征。
这篇论文的贡献在下面三个方面:
1. 我们提出了有监督的提取图像特征的方法来针对在线广告中的新的图像展示广告的冷启动问题,据我们所知,这是第一个在在线图像广告中学习人工制作的广告的图像特征的论文。
2. 对于提取人工制作的广告图像特征,我们提出了一个新的特征学习框架,我们提出的模型直接从原始像素和用户反馈中学习到最具有辨识度的图像特征,并且其不依赖于人的启发性思维。我们和几个最好的人工制作特征的方法在一个含有超过470亿记录的大型工业数据集上进行比较,我们的方法明显优于baselines。
3. 通过相关性分析和可视化,我们深入了解我们的模型,并且证明了我们的模型能够发现有辨识度和有意义的特征。
本文组织如下,在第二节,我们描述了一些相关工作,第三节,我们公式化点击预估问题,在第四节,我们展示了我们的网络结构,我们在第五节中展示了我们的实验结果,并且在第六节中总结了我们的工作。

2 相关工作

在线广告的点击预估时在线广告网络公司的核心业务,并且也引起了科研节的广泛关注。“Contextual advertising by combining relevance with click feedback.”提出使用上下文文本信息和点击反馈数据来提升预估系统。“Personalized click prediction in sponsored search”和“A maximum entropy approach to natural language processing”在预估系统上使用LR模型。“Learning the click-through rate for rare/new ads from similar ads.”在点击预估系统中使用决策树。
为了预测新广告的CTR,许多工作在不同方面针对冷启动问题展开。“Contextual advertising by combining relevance with click feedback.”使用上下文信息,而“Learning the click-through rate for rare/new ads from similar ads.”使用语义相关的广告,“Estimating rates of rare events with multiple hierarchies through scalable log-linear models.”在广告种类之间使用现有启发式信息来帮助预测新广告的CTR,然而,这些方法不能直接应用于图像展示广告上。在缺乏一个广告的类别的足够信息的情况下,我们不得不依赖于图像特征。由于隐私原因,一些广告系统没有权限从用户身上获得私人信息,并且用户特征不影响项目中不同图像特征的比较。在本文中,我们聚焦于从广告方面设计更好的通用图像特征来处理新图像广告中的冷启动问题。
大量有效的人工制作的图像热症已经对于不同的任务设计出来了。“Visual information retrieval system via content-based approach”使用大量的图像特征来构建一个基于图像检索系统(CBIR)的内容,”Object recognition from local scale- invariant features”对于通用目标识别任务提出了SIFT特征,但是这些人工制作的特征不能直接应用在展示广告任务中,“Multimedia features for click prediction of new ads in display advertising.”和“The impact of visual appearance on user response in online display advertising”提出使用多媒体特征来预测展示广告中的广告的预估概率。他们利用大量图像特征包含亮度、颜色、对比度、清晰度、纹理、感兴趣点、显著图等,并且他们明显提升了最好的方法。然而,这些特征主要是固定的人工制作的特征,这些人工制作的特征并不是专门为点击预估模型设计,他们几乎不能捕捉到这项任务的关键因子,并且他们不够灵活。在快速变化的世界中,影响CTR的重要因素也要是演变很快的,固定的手工设计特征对于适应新的展示广告不够灵活,更糟糕的是,他们严重依赖于人类启发式,这是很容易出错并且难以设计的。
特征学习旨在从原始输入中学习到一个特征提取器,比如提取到的特征针对特定任务是非常有效的。卷积神经网络是其中一个最受欢迎的特征学习结构,其能通过学习滤波器来生成一个潜在特征的层次结构。“Imagenet classification with deep convolutional neural networks.”在超过一百万的图像数据集上使用卷积神经网络在图像分类任务上获得了最好的结果。“Visualizing and understanding convolutional neural networks.”发现高维神经元能够学习有趣和直观的高维图案,然而,现有特征学习论文主要集中于自然图像分类。据我们所知,在展示广告的点击预估任务中,仍然还没有工作在特征学习上,此外,现有的特征学习结构可能不适合点击预估问题。

3 点击预估问题公式化

在展示广告中,广告网络对一个在线用户拍卖每个展示广告的机会,有着高CPM的广告得到展示机会。所以预测一个用户点击广告的概率是广告网络的核心任务。
在线广告中的点击预估能够被公式化为一个分类问题。每个实例都是一个特定上下文展示给特定用户,然后产生用户在广告中的反馈的次数。第j个实例可以公式化为 I j = { f j , c j } ,其中 f j 是特征的集合, c j 是这个实例的标签, f j = { u j , p j , a j } ,其中 u j 是用户侧特征集, p j 是上下文特征集合, a j 是广告侧特征集合。类别标签 c j { 0 , 1 } 由用户的反馈决定,0是没有点击,1是点击。我们使用 D = { f j , c j } j = 1 n 来代表含有n个实例的训练集,使用 T = { f j , c j } j = 1 m 来表示含有m个实例的测试集。我们的目标是估计点击 p ( c j | f ( j ) ) 的概率。由于隐私问题,一些推荐系统没有用户信息,用户特征不影响项目侧上不用图像特征的比较。在本文中,我们聚焦于从广告侧中设计更好的通用图像特征 a j ,我们讨论局限于 u j = 并且 p j =空集的情况。
我们选择使用LR来构建我们的预估模型,LR模型广泛使用在点击预估问题中,它简单易懂,并且能处理大量不同的特征,这个训练过程可以很容易扩展到非常大的规模“Parallelized stochastic gradient descent. In Advances in Neural Information Processing Systems,”,“Parallel coordinate descent for l1- regularized loss minimization.”。
我们预测一个实例的类别标签通过 p ( c j | f j , w ) = G ( i = 1 d w i f j i ) G ( x ) = 1 1 + e x ,其中 f j i 是第i个特征, w i 是第i个特征的权重,d是特征总数,权重向量w由最小化下列目标函数发现: O ( w ) = j n L ( w , f j , c j ) + λ 2 | | w | | 2 L ( w , f , c ) = l o g p ( c | f , w ) ,其中L(x)是给定一个实例{f,c}的权重w的负对数似然, | | w | | 2 是L2正则化项, λ 控制L2正则化的程度,最小化目标函数等同于最大化给定训练集D的w的对数似然。
我们公式化提取到的图像特征, a j = E ( A j , e ) A j 是第j个广告的图像, E ( A j , e ) 是从图像提取特征的函数,e是特征提取模型,人工制作的特征提取器模型是固定的并且不需要训练,对于可训练的特征提取模型,我们发现通过最小化下面目标函数来优化提取器e, O ¯ ( e , w ) = j n L ( w , E ( A j , e ) , c j ) + λ 2 | | w | | 2 ,换句话说,我们寻找最佳的特征提取器e,以便于我们能在提取到特征 a j LR模型中获得更好的性能。在本文中,特征提取器e是一个斩首的深度卷积神经网络。

4 特征学习结构

在本节中,我们描述了我们卷积神经网络的结构,就像图2中描述的一样,下面我们将展示一些我们提出的网络结构的独一无二的地方,相关实验结果在第5、6节中。
这里写图片描述

4.1 任务分析与结构设计

在这个部分,我们分析了任务的特点,传统的图像分类任务如ImageNet都是含有上千个标签的自然图像,自然图像有大量的环境噪声和多目标问题,从上千个标签中学习有辨识度的特征要求大量的常见低维和中维特征,这部分的原因在于AlexNet和ZFNet在每层卷积层使用大量的滤波器。
在图像广告预测案例中,我们主要处理人工制作的图像广告,其比较简单,背景噪声少并且目标少,就像图1一样。我们的网络输出是“点击”或者“不点击”,所以softmax分类器只有两个输出,所以所需的公共潜在变量远远小于1000个不同图像类别所需要的区分度。
这里写图片描述
如表4所示,过大的模型可能会遭遇过拟合以及泛化能力不足,因此我们在每层中使用更少的滤波器。

4.2 视觉元素位置建模

此部分,我们讨论了视觉元素的位置的影响。传统的图像分类问题只关心一个视觉对象是否存在在正幅图像中。然而,图像广告的视觉元素位置信息对于广告质量也是非常重要的。直观来说,对于我们更容易关注到图像中间的元素,同样的,相同的视觉元素在不同的位置可能会影响图像广告的整洁性,在我们的模型中,我们使用一个更大的输出特征图来更好的建模位置因素。实验证明在表4中也展示了使用更小的特征图会恶化模型性能。

4.3 在一个机器上处理大型数据集

在这个部分我们介绍了加速训练过程的方法,我们使用包含470亿个实例的数据集,每个实例对应到一个广告的一次曝光,显然,一个机器不能出常用的方法来处理这么大的数据集。由于我们不能使用用户特征,我们利用相同的ad_id来合成所有的实例,相同广告的位置聚合成一个统一的实例。一个聚合的实例有一个2维标签,第一维记录了没有点击的实例的总数,第二维记录了点击实例的总数。比如,一个广告含有10次未点击实例和2次点击实例,则标签为<10,2>,我们实现了这个2维标签的神经网络。

4.4 减少过拟合

这个部分,我们描述了我们使用减少过拟合的方法。
数据增强“Multi-column deep neural networks for image classifica- tion.”和“Best practices for convolutional neural networks applied to visual document analysis.”通过对图像产生简单的保标签变换来扩大数据集。我们首先resize每幅图像的最短边为128,然后在通过随机crop来生成100x100的子图像,在测试阶段,我们使用10个随机crops像AlexNet一样。
Dropout能够减轻由于高度相关特征造成的过拟合问题,它随机丢弃一些输出激活的神经元。我们在我们结构的全连接层上使用了dropout。
局部相应归一化(LRN)是一种输入图像的亮度规范化的技术,我们发现在高维卷积层之后应用LRN能够大大提升性能,我们也发现使用ReLU激活函数并不会完全饱和并且产生稀疏激活,实验结果如表4所示。

4.5 训练细节

本部分,我们介绍训练的细节,我们修改了Caffe来训练我们的广告图像特征提取网络,目标是最小化softmax损失函数,我们使用动量的Nesterov的加速梯度优化算法”On the importance of initialization and momentum in deep learning”,batch_size设置为256,权重衰减设置为0.0005,为了加速收敛,我们每5000次迭代后,double了batch_size。
学习率根据启发式动态调整,”An optimal method for stochastic composite optimization”
和”Accelerated gradient methods for stochastic optimization and online
learning.”初始学习率设置为0.01。

4.6 效率和性能的权衡

在60000次迭代后开始收敛,大约60个epochs,训练特征提取器在一块NVIDIA TESLA M2090 6GB GPU上训练了两天,训练我们提出的特征提取模型相较于直接提取预定义的人工制作的特征要慢得多。然而,它不需要人类知识,能够节省大量人工设计操作。提到的方法适合在快速演变的CTR预估任务上几乎不需要人类知识提取图像特征。

5 实验

本节,我们通过实验证明了相较于使用现在最好的人工制作特征的方法在大型工业数据集上与我们方法的比较,首先,我们在识别潜在流行广告图像上进行了比较,然后我们存在一些其他现有广告特征的情况下进行了比较,最后,我们分析与没有见过的广告种类的相关性以及可视化识别区域来深入了解特征提取模型。

5.1 实验设置

本节,我们首先介绍数据集,然后我们介绍图像特征baseline,最后我们描述实验的整个步骤。对于评估指标,我们介绍了AUC来描述预估结果的准确性。
数据集
我们的数据集从腾讯在线广告系统采样了19天的数据,大约有470亿条记录。每条记录是一次广告的曝光,标签为点击或者不点击(由用户的点击日志获得),我们从腾讯QQ空间网页的5个展示位置的5个受欢迎广告种类记录中进行采样。相同的广告可能展示在不同的位置,在数据集中有大约25万个不同的展示广告,我们展示了数据集的一些统计数据在表一中,并且一些广告图像样本展示在图1中。前15天的数据记录当作训练集,剩下的4天当作测试集,训练集有大约470亿记录,在22万的广告上,测试集有24亿记录在大约3.3万新广告上(没有在训练集上出现过的),我们将测试集上展示新广告的测试结果。
这里写图片描述
Baseline
我们与两种制作的特征baselines进行了比较,(1)multimedia 特征,包含颜色、清晰度、模糊、质量、第三规则、简洁、视觉权重、动态变化、颜色情感等图像搜索和展示广告的冷启动问题中的主流人工制作的特征。有大约53个多媒体特征,(2)SIFT结合Bag of words(BOW),SIFT结合局部约束线性编码(LLC),SIFT+BOW和SIFT+LLC都有256维。由于隐私问题,我们没有使用用户个人信息,并且其也不会影响不同图像特征之间的比较,本文中,我们聚焦于广告中更好的图像特征的制作。
实验步骤
1.图像特征提取是实验的第一步。对于多媒体图像特征和SITF+BOW图像特征,我们利用Opencv直接提取每张广告图像的所有特征,对于SITF和LLC,我们使用原论文提供的源代码。对于我们的特征提取方法,我们首先训练了特征提取器,然后我们使用这个特征提取器的规范化输出作为图像特征,我们重复这个特征学习过程10次。
2.模型训练。对于第5.2节,我们只使用图像特征来预估广告CTR,在本例中,一个实例包含要求的图像特征和标签,在5.3中,我们结合了图像特征和ad_id,广告种类和曝光的广告位置。我们在训练集上训练了一个线性LR模型。
3.测试。我们在新的广告数据集上预测了每个实例的点击概率,然后计算和记录了新广告的AUC,对于我们的非确定性特征提取器,我们报告了10次运行的AUC的平均值。

5.2 只比较图像特征

本部分,我们通过只使用图像特征来构建预测模型来比较不同种类的图像特征。我们有4组图像特征,“多媒体”,“SITF+BOW”,“SIFT+LLC”,“特征学习”。我们使用这些特征训练LR模型,结果被展示在图3和表2中。
我们发现我们的特征学习方法在新广告预测上优于多媒体和SIFT特征4.1%,这表明我们的特征学习方法更适合点击预估,并且对于没有看见过的广告图像泛化性能更好。
这里写图片描述
这里写图片描述

5.3 结合基础特征和图像特征

本部分,我们使用图像特征和基础广告特征来构建预测模型对不同图像特征进行比较。基础广告特征包含Ad ID ,广告种类,广告位置,列举在表3当中。
这里写图片描述
与5.2类似,训练了LR模型,实验结果显示在图3和表2中,我们发现特征学习大幅度的优于其他人工制作特征的方法。它证明了我们的特征学习方法非常适合预测新广告,甚至在存在其他广告特征的情况下。这个实验表明我们能结合特征学习方法和其他广告特征更进一步提升现有在线广告系统的性能。

5.4 判别图像特征:广告种类

本节,我们将通过分析我们模型的输出和广告种类的ground-truth的相关性来进一步理解我们的模型,注意到我们没有使用广告种类的信息来训练我们的特征提取器。
每个学习过的特征和每个虚拟广告种类的皮尔森相关性显示在图4中,我们发现由此产生的皮尔森相关性范围从-0.27到0.3,一些学习过的图像特征与类别1和34相关。这看起来我们的特征提取器已经学习到一些广告种类的区别,原因可能是不同的广告类别自然有不同的CTR。比如,女生服装广告相对于其他种类有更高的CTR,在这个数据集中,广告种类1和34与所有广告的平均CTR相比有不同的平均CTR,我们的模型已经在不同种类之间学习到差别,因为这些种类对于预测广告图像是非常有用的,实验结果表明我们提出的特征学习结构能够发现图像高高的有辨识度的特征。
这里写图片描述

5.5 可视化判别区域

本节,我们通过可视化一些广告图像的判别区域来深入理解模型学到了什么。我们采用“Deep inside convolutional networks: Visualising image classification models and saliency maps.”的方法,一些典型的判别区域展示在图5中。虽然有一些噪声,但是仍然能够看到一些高点击率的有意义的指标。人脸看起来是一个指示信号,这暗示着模型学到了广告中的人脸能带来更高的点击率。在促销中使用一些字符似乎是高点击率的一个指标,实验表明我们的特征提取器能够学到提取有意义的特征。
这里写图片描述

5.6 结构选择

本节,我们进行了一些实验来显示在第4节中结构选择过程中各种因素的影响。结果列在表4中。“Fat”即每层的输出量是原来的两倍,“Tall”有5层卷积层,”Short”只有3层卷积层,所有这些都是使得性能下降,表明根据问题的性质和训练集一个合适的模型容量是非常重要的。”Small”即相较于上层卷积层,特征图的尺寸减半使得性能下降,表明在展示广告中视觉元素的位置是非常重要的,”No lrn”表明在第三和第四层卷积层之后不用LRN,相较于”Chosen”是不好的,表明归一化层进一步减少了高维特征图中极值的数量,有利于高层特征图的训练。
这里写图片描述

6 结论

我们提出了一个有监督的提取图像特征的方法,为了针对在线广告系统中新图像展示的冷启动问题,据我们所知,这是第一篇学习在线图像广告中人造广告图像特征的论文,我们为人造广告图像特征提取提出了一个新的特征学习结构,我们提出的模型直接在目标任务中从原始像素和用户反馈中学习有辨识度的图像特征,提出的方法是非常灵活的而且不依赖于人类启发性,我们在一个含有470亿记录的大型工业数据集评估了我们的方法和几个人工制作特征的方法进行了比较,我们的特征学习方法显著优于这些方法,我们通过相关性分析和可视化进一步深入理解我们的模型,我们表明我们的模型能够发现有判别性和有意义的特征。

猜你喜欢

转载自blog.csdn.net/qq_31531635/article/details/82384578
今日推荐