DICM in AMS

DICM in AMS

论文名称：Image Matters: Visually modeling user behaviors using Advanced Model Server

摘要

在中国最大的电子商务平台淘宝中，提供了数十亿的项目，并且通常用他们的图像来展示，为了更好的用户体验和商业效率，在线广告系统中CTR预估用丰富的用户历史行为来识别是否一个用户对候选广告感兴趣。使用用户行为图像来提升行为表达将会带来用户的视觉偏好并且能大大提升CTR预估。所以我们提出利用用户行为ID特征和行为图像来联合建模用户的喜好。然而，在CTR预估中利用与一个样本中只引入一幅图像的候选广告图像相比，利用用户行为图像训练会在一个样本中产生数十到数百张图像，在通信和计算上都带来了巨大的挑战。利用著名的参数服务器（Parameter Server,PS）框架，实现这种模型需要与原始图像特征通信，导致无法接受的通信负载，这表明PS不适合这种情况。在本文中，我们提出了一个最新有效的分布式机器学习范式称之为AMS（Advanced Model Server）。在AMS中，前向、反向过程也能发生在服务器(server)上，并且只有非常小的高维语义特征需要送到workers。AMS因此惊人的减少了通信负载，是的难以联合训练的过程变得可能。基于AMS，深入研究了图像和ID特征有效结合的方法，我们提出了一个Deep Image CTR模型，我们的方法在在线和离线评估中都获得了巨大的提升，已经被部署在服务于主要流量的淘宝展示广告系统中。

1 引言

淘宝是中国最大的电子商务平台，通过移动端APP和PC网页端为数亿用户提供数十亿项的服务。用户来到淘宝通过搜索或者个性化推荐浏览这些项目。每个项目通常通过一个项目图片结合一些描述性语言进行展示。当用户对这个项目感兴趣时，他们会点击这个图像来获得更多的细节。图1(a)显示了淘宝移动APP的被推荐项目的一个例子。
这里写图片描述
淘宝也建立了世界领先的展示广告之一的系统，帮助数百万广告主来与用户建立联系。实际上展示广告是网络广告中一种不可或缺的形式。通过识别用户的兴趣，可以在各种地方呈现，比如猜想你喜欢什么，并有效的像正确的客户传递营销信息。淘宝展示广告采用CPC(Cost-per-click)这种非常有效的收费方式，在CPC模式下，广告出版商通过eCPM(effective cost per mile)对候选广告进行排名，这种方式由CTR乘投标价格来对排名进行估计。这种策略使得CTR预估称为广告系统中的核心任务。
CTR预估对一个用户对某一个项目的偏好进行打分，并且很大程度从历史行为中理解用户的喜好。用户每天在淘宝上浏览和点击项目数十亿次，这些访问带来了大量反映用户兴趣的日志数据。传统的CTR预估研究主要集中于精心设计的反馈特征和浅层模型等，如LR模型。在最近几年，基于深度学习的CTR预估系统压倒性的出现“ Deep learning based recommender system: A survey and new perspectives”，这些方法主要涉及稀疏ID特征，如广告ID、用户交互项ID等，然而，当一个ID在数据中很少出现时，它的参数可能不会被训练得很好。图像能够提供直观的视觉描述，因而对于模型带来了更好的泛化能力。考虑到项目图像是用户直接交互的对象，和谐图像能够提供更多关于用户兴趣的视觉信息，我们建议通过这些图像来自然的描述每个用户行为，然后联合CTR预估中的ID特征来建模。
利用图像数据来训练CTR模型要求巨大的计算和存储能力。前人工作贡献于在CTR预估中利用图像特征来表达广告“Deep ctr prediction in display advertising”和“Image Feature
Learning for Cold Start Problem in Display Advertising.”这些研究都没有探索用户行为图片，对用户行为图片建模能够帮助理解用户视觉偏好以及提升CTR预估的准确率，而且，结合用户的视觉偏好和广告视觉信息能够更进一步优化CTR预估模型。然而，利用交互式图片对用户偏好建模是非常具有挑战性的。因为一个常见用户的行为图片数量范围从几十到上百张，这将相较于只用建模广告图像而言带来了相同倍数的损耗。考虑到淘宝服务于数亿用户以及数十亿个项目，这是一个不平凡的问题，并且对于实际生产来说，处理这个大规模的问题设计一个有效的训练系统是非常有必要的。
我们提出超过著名的Parameter Server(PS)框架的Advanced Model Server(AMS)框架来处理这个大规模训练问题。在传统PS框架中，图像要么被看作是训练数据的一部分，被存储在样本中，要么被分发给workers。然而，每个样本包含了大量行为图片，原始图像特征尺寸远大于ID特征，因此，对于PS来处理这样大量的样本和图片是不可行的，因为要么不能接受超大存储量，要么不能接受超大通信负载。在AMS中，servers被设计成能够前向和反向传播一个子模型得到独立的特征，然后将整个模型分为worker模型部分和server模型部门。原始图像特征数据作为无需重复的全局共享特征放置在server端，这大大的减少了存储使用量，比在我们的应用程序中的样本内存储减少了大约40倍。而且，在我们的应用程序中，只有通过server模型部分的低维的高层语义表示的图像的输出需要被传输，而不是原始图像特征数据，这大大的减少了通信负载大约340倍，而且，梯度反向传播的整个处理过程也被从worker模型部分转到了server模型部分，这保证了从原始图像特征到最终CTR得分的端到端的训练过程。
基于AMS，我们成功的构建了一个高效的训练系统并且部署在一个轻量级在线服务上，它解决了图像特征带来的存储、计算和通信负载的问题。特别地，我们的训练数十亿样本只用了18个小时，使得在线模型的每天更新变得可能，这也是工业生产的所必需的特性。
得益于精心优化的基础设施，我们提出了一个统一的网络结构，命名为Deep Image CTR Model（DICM），其能有效的利用用户相关行为图片进行建模，通过一个选择的注意力集中的示意图来实现图像感知用户建模，它在生成注意力权重的时候也利用了图像和ID特征，DICM也利用了用户偏好和广告之间的视觉联系，显著提升了性能。
总结我们的贡献为下面三个部分：
1.我们提出了最新的AMS框架，它超越了著名的利用子模型分布方式的参数分布方式，有利于以分布式方式来联合学习整个模型。这是使得深度学习模型能够利用负担得起的计算资源来处理大规模和结构化数据的重要步骤，例如，在本文中，每个大规模CTR样本数据与一个用户和一个广告相关、大规模图像数据以及大规模用户行为数据相关，或连接样本和图像的数据。
2.我们提出的DICM，不但利用它的图像对广告进行建模，而且利用用户的大量行为图片来更好的建模用户偏好，相较于纸使用用户广告图像更加具有挑战性。我们展示了要么广告图像要么用户行为图像能够有利于CTR预估，然后将它们和精心设计的模型相结合将带来巨大的提升。
而且，我们利用大量离线和在线实验证明了我们方法的有效性。它现在已经部署在淘宝的展示广告系统中，为5亿用户和百万广告主提供服务。

2 相关工作

早期CTR预估聚焦于精心设计的低维统计特征，通常由用户点击投票决定的，如LS-PLM，FTRL和FM都是浅层模型上的经典探究。最近，随着样本量的着呢吗更多，特征维度变得越来越大，CTR模型从浅层向深层演变。特别地，受NLP领域的启发，学习分布式表达的嵌入式理论被用来处理大规模稀疏数据。NCF和Wide&Deep研究了MLP网络来大大提升模型的容量，DeepFM通过在Wide&Deep中利用DM更新宽的部分来特征交互进行建模。最新的工作DIN“Deep Interest Network for Click-Through Rate Prediction”提出应用attention机制来根据一个给定的项目来自适应建模用户行为。这些工作促进了稀疏特征的使用。然而，ID只告诉了对象之间是不同的，并且揭露了很少的语义信息。特别是当一个ID在训练集中很少出现时，它的参数将不会被训练的很好，在训练期间，没有见过的ID将不会对预估造成影响，带有视觉语义信息的图像将为模型带来更好的泛化性能，更进一步，训练集中没有见过的图像仍然能利用一个训练好的图像模型来帮助CTR预估。
图像表达任务在最近几年带来了巨大的提升，通过深度模型学习到的高维语义特征已经在大范围的任务中证明了其有效性“Deep residual learning for image recognition”、“Imagenet classification with deep convolutional neural networks”、“Very deep convolutional networks
for large-scale image recognition.”、“Going deeper with convolutions.”。
先前一些工作尝试在CTR模型中加入图像信息来描述广告如“Multimedia features for click prediction of new ads in display advertising.”和“Image Feature
Learning for Cold Start Problem in Display Advertising”针对冷启动问题来对广告图像进行建模，要么人工设计特征或者利用预训练的CNN模型。“ Images don’t lie:
Transferring deep visual semantic features to large-scale multimodal learning to
rank”介绍了利用项目的视觉信息来克服了Esty的搜索引擎的对只用文本表达带来的误解。“Deep ctr prediction in display advertising”，DeepCTR提出端到端的方法训练CNN。所有这些工作聚焦于利用图像来表达广告，这和我们的动机不同。广告的图像描述广告的视觉特征，用户行为图像揭露了用户的视觉偏好，结合它们一起桥接这些视觉信息将比它们中的任何一个都能有更好的性能。本文中，我们提出了利用图像来提升用户的表示，并且设计了一个最新有效的分布式机器学习平台来应对它带来的挑战。

3 DEEP IMAGE CTR MODEL

3.1 展示广告系统

淘宝的展示广告系统每天响应数十亿次页面请求(PV,page view)。对于每次请求，最合适的广告在特定情况(观看时间，展示位置等等)下展示给特定的用户。在eCPM机制下，广告系统从几千万个广告中在短短几千毫秒内挑选出排名最高的一个。
在线系统以漏斗状的方式完成这个任务，并且有大致三个顺序模块组成，由图1（b）所示，其中Match模块从所有候选广告中根据当前用户的偏好从其行为中推断出大约4000个广告。然后Pre-rank模块更进一步利用一个轻量级CTR模型筛选广告数量至400个左右，最后Rank模块利用复杂的模型来精准的预测广告的CTR并且根据eCPM来对它们进行排序得到最好的选择。所有这些模块由用户兴趣的合适理解来决定来给出个性化推荐。图1(a)显示了一个淘宝移动端APP上经典的广告结果。
本文，我们聚焦于在CTR预估模型中利用用户行为图片来对用户更好的建模。下面的章节中，我们仔细的描述了由Rank作为一个例子带来的挑战和解决方案。我们也应用到了Pre-rank上，Rank和Pre-Rank的结果都在随后展示。我们的方法也能在基于深度学习的树模型上使用，我们将在未来做这件事。

3.2 问题描述

特征来源于用户、广告和场景等，CTR模型输出一个用户在某个场景下点击广告的概率，下面先前的工作，DeepCTR、“Deep neural networks for youtube recommendations.”、“Image Feature
Learning for Cold Start Problem in Display Advertising.”、DIN，被认为是一个二分类问题，其标签被弱化为点击或者不点击的反馈，在训练时，使用交叉熵来作为目标函数。
与由像素表示的图像分类问题不同的是，CTR预估问题通过特定应用下需要更加精细的设计特征。通常的做法是在每个使用底层ID的样本中描述用户、项目、场景的各个方面，构成很多稀疏特征域。用户历史行为域由项目id，用户先前点击组成，这对描述用户来说非常重要。这个方法产生大规模但非常稀疏的数据。
嵌入MLP流行网络被广泛使用来拟合这种大规模稀疏输入。”Wide & deep learning for recommender systems”、“ A Factorization-Machine based Neural Network for CTR Prediction.”、“Neural Collaborative Filtering”。在淘宝广告系统中，
高度优化的CTR模型遵循这种模式被部署。Embedding&MLP的部分如图2所示是一个简化的用来说明的生产模型。最近的DIN被引入到生产中，以更好的对稀疏的行为特征建模，使用这些复杂的模型，下面的章节，我们将展示利用图像来对用户行为建模能够带来巨大的提升。
这里写图片描述

3.3 利用图像建模

我们利用视觉信息来扩大了Embedding&MLP模型，特别是利用图像来促进用户行为表达。我们将这种结构称为Deep Image CTR Model(DICM)，并将Embedding&MLP作为基础网络。就像图2中描述的那样，用户行为图像和广告图像被分为两个特殊的特征域，这些图像首先被送入一个可训练的子模型来得到低维的高层次表达。与embedding相似，自模型也是一种embedding操作将图像嵌入到向量中，所以我们称之为embedding模型。embedding模型能够被看作是传统键值对嵌入操作的一种推广，因为它能通过学习模型嵌入到训练过程中看不见的新图像。由于用户行为具有可变长度，因此需要将多幅图像聚合到一个固定长度的用户表达，然后送进MLP。
值得注意的是，该模型中的图像嵌入实际上是独立的，也就是说，它不依赖于其他特征，因此嵌入模型能够分别进行前向、反向传播，这种改进促使我们设计AMS，而且，能够使用AMS来设计各种类型的数据（如文本，视频）的嵌入模型。

4 AMS

训练的主要挑战在于大量的图像涉及到的用户行为。图像不仅是大数据源本身，而且在提取语义信息时需要复杂的计算。对于CTR预估来说，每个包含一个用户描述的样本包括其巨大的历史行为。因此，训练系统不可避免的面临存储、计算和通信的巨大负载。比如，在我们的统计阶段，一个典型的用户将有超过200个行为，这意味着一个训练样本将涉及超过200张图片，相较于利用只广告图像多了上百倍。而且，训练系统需要处理数十亿训练样本并且每天完成模型更新，满足线上生产的要求。
AMS通过利用embedding模型的独立性提供一个有效的分布式训练平台。AMS超越了经典的Parameter Server(PS)，从某种意义上来说，server不仅仅能通过查找键值对来嵌入普通ID，而且还能通过联合训练embedding模型来嵌入像图像一样的复杂目标。

4.1 PS和其限制

PS是大规模参数化机器学习问题的一种广泛采用的分布式体系结构。其由两个点组构成：worker group 和server group。worker group含有一系列workers来对训练样本的指定部分来进行训练，同时server group服务于一个分布式数据库来存储模型的参数，并能通过键值对结构来访问。这样，PS有效的聚集和同步参数。
Embedding&MLP模型能够在GPU集群上有效的利用类似PS结构来实现。由于embedding层的大小远超过每个worker的内存容量，embedding层的参数都被放置在server group上，并且能够通过键值对结构来访问（前向）和更新（反向）。
然而，当图像特征，特别是使用了大量的用户行为的图片来完成训练过程是非常难的，图像的数量非常巨大，图像数据需要被分布式存储，要么在worker group中要么在server group中，使用PS，两者在实际中都非常的低效。
（1）如果图像和训练样本都被存储在worker group，那么图像特征将会大大增加训练数据集的大小（在我们的场景中，每个mini-batch从134M到5.1GB，增长了大约40倍），这使得IO或者存储都变得非常困难。
（2）如果图像都被存储在server group然后通过训练时workers来访问，那么将会带来非常大的通信压力，由于图像特征是非常高维的(实验中为4096)，大大超过了ID特征的维度(12)。
这样的困境促进我们探索新的体系结构，下面小节将来描述。

4.2 AMS的体系结构

本节中，我们讨论AMS体系结构的具体细节。和PS相同，AMS也包含workers和servers，但是除了处理键值对参数外，在AMS中的server也端到端的训练embedding模型。AMS因此命名为AMS，在AMS中，样本由稀疏特征组成，其中行为图像被标记为索引，也是一种ID。所有图像都在servers中存储和计算，然后通过embedding模型来嵌入到语义向量中，这个平台对于各种类型的数据提供各种建模方法。比如，我们可能有效的为用户交互的项目利用RNN来有效的建模用户的评论，这些项目面临与图像一样的问题。
所有都在图2和算法A1中进行描述，训练样本在没有图像的所有的workers中被划分，图像以键值对的方式分布式存储在servers中。这些键是一个图像的索引，值是图像数据，在每次迭代中，workers独立的读取样本中的一个mini-batch数量，并且从servers请求ID的嵌入结果和batch中的图像。注意到，来自某个worker的请求被送到存储相应的ID或者图像的server节点上。当收到请求时，servers返回和PS相同方式返回ID特征参数中的嵌入向量。对于图像来说，server首先从本地内存中取出图像数据，然后通过embedding模型 $\xi$ 来得到嵌入向量e。workers从servers拉回所有的e，然后完成worker模型的计算，获得梯度w.r.t模型参数和embeddings( $\delta_{W_{r}}和\delta_{e_{r}}$ )， $\delta_{e_{r}}$ 然后被推送到对应的servers以便于embedding模型能够通过反向传播来计算梯度 $\delta_{\xi_{s}}$ ，最后，workers和servers同步它们的模型梯度 $\delta_{W_{r}}$ 和 $\delta_{\xi_{s}}$ ，完成模型更新。
AMS带来了一些好处：
（1）通过只在servers存储一次来大大减少了图像的存储，并且由于embedding向量相较于原始数据非常小（通常是4096到12维度，压缩了超过340倍）这减少了通信负载。
（2）servers能在一次训练迭代时自然的合并多次发生的某个图像的计算，这减少了计算负载。还值得注意的是，servers和workers实际上部署在同一个GPU物理机器上，所以备用的worker和server计算最大化利用GPU。
这里写图片描述

4.3 由AMS实现的DICM

如图2所示，DICM能够有效的由AMS训练，稀疏ID特征的embeddings和embedding模型都被设计运行在servers上，MLP和Aggregator都运行在workers上。
配备了AMS的分布式GPU训练结构使得日常更新的模型具有数十天的日志数据变成可能，这对于真实的广告系统是至关重要的。表一显示了我们最佳配置模型的在不同数量GPU伤的18天的数据的训练时间。值得注意的是，带有GPU的我们的系统有可取的近似线性可扩展性，我们使用考虑到效率和经济的权衡，使用20台GPU。
这里写图片描述

4.4 测试和在线部署

在大型工业广告系统中CTR模型的在线部署中效率是非常重要的。对于利用稀疏ID特征的CTR模型，如Embedding&MLP，embedding参数被全局放置在键值对存储中。并且MLP部分的参数都局部存储在排序server中。对于每个请求，排序server拉回ID embeddings，然后送进MLP来获得预估的CTR。这个方案被证明在生产环境中有很高的吞吐量和较少的等待时间。
当涉及到图像时，特别是大量的行为图像，提取图像特征会带来大量的计算和通信负载。得益于图像之间的独立性，图像embeddings能够离线计算，然后能像普通ID特征一样被全局存储，所以排序server能够只做少量修改有效预测DICM。注意到，新图像能够直接被嵌入和使用，这减轻了ID特征中的冷启动问题，DICM仅以可容忍的程序相对于baseline增加了响应时间。从每个PV请求的21毫秒增加到了24毫秒。

5 基于用户建模的图像

5.1 图像embedding模型

embedding模型被设计用来提取像素级别的视觉信息来语义化嵌入向量。计算机视觉中的最新进展表明学习到的分类任务中的语义特征有很强的泛化能力。我们经验性的研究表明VGG16在我们的应用中比从头端到端的训练效果更好。但是由于VGG16的模型复杂度不够，我们采用了混合训练：整个网络被分成固定部分和可训练部分（用CTR模型进行端到端的训练）。
对于固定部分，我们采用预训练的VGG16的前14层，即conv1到fc6，生成一个4096维向量，这是在实际应用中权衡了效率和有效性的结果。例如，用VGG16的1000维输出的FC* 代替4096维的FC6来作为固定部分导致相关性能下降3%。这说明在固定部分的信息降维需要被控制，输入的尺寸和可训练的部分联合学习整个网络是非常重要的，然而，当我们使用VGG16的低层来作为固定部分时，训练过程中的计算负载变得很高，并且没有什么提升。最后VGG16的含有4096维输出的FC6被选作固定部分，对于可训练部分，使用一个（4096-256-64-12）的三层全连接层，输出12维的向量。

5.2 用户行为图像聚合

利用Embedding&MLP模型的CTR预估，用户的紧凑表示是非常重要的，我们需要聚合各种各样的用户数据，特别是可变数量的历史行为到一个固定长度的向量。因此，一个aggregator聚合块被设计成聚合大量的行为图像embeddings。
事实上，许多经典问题都涉及相同的任务，对于传统的图像检索和分类任务，局部特征如SITF在图像中被聚集，经典的方法包括VLAD和稀疏编码利用求和或者最大操作来实现这个。对于神经机器翻译，对于不同长度句子的上下文向量用attention机制来抽象。我们遵循这些想法并且探索了各种设计，特别是attention机制，进一步涉及ID特征信息提出了多查询注意力池化（Multiple Query attentive pooling）
最简单的方法就是串联所有的行为图像embeddings一起，然后通过填充pad或者缩减truncate来变成一个特定长度。但是当行为数量非常大或者当行为顺序改变时，就会遭受损失。MAx和求和池化是另外两种直接的方法，不能合适的聚焦于不同的用户行为。最近DIN介绍了attention机制来对用户建模，它根据所考虑的广告自适应地捕获最相关的行为。我们也利用了这个方法，并且考虑了视觉相关性，我们在attention中使用广告图像作为查询，我们叫这种方法为attentive Pooling，这些方法在图3中说明。
这里写图片描述
不同种类特征之间的交互是非常重要的。比如，种类id为“T shirt”的广告和“T shirt”的图像在用户行为中是有联系的，因此其能更好的捕获到用户对这类的偏好。因此，我们提出了MultiQueryAttentivePolling（图3（d）），其联合了图像和ID来生成注意力权重，细节上，我们设计了两个attention通道，涉及到广告图像特征和ID特征分别作为查询，这两个attention通道分别生成它们自己的权重和加权和向量，然后将它们级联。和multi-head方法不同，MultiQueryAttentivePooling对每个attention通道使用不同的查询，因而利用互补性来探索不同的相关性。
我们经验性的比较了上述聚合的设计在7.4节中。

6 Pre-rank的DICM

DICM框架可以平滑的应用在Pre-rank阶段中，为了加速在线服务，我们设计了类似DSSM的结构，能够广泛应用在有效的敏感跨域搜索/推荐任务，在图4中展示。等长的广告和用户表示首先分别利用它们自己的特征建模，就像在Rank中一样，ID特征和图像都利用embedding模型来嵌入。
为了避免广告和用户特征在早期融合，求和池化被用来对行为图片进行聚合aggregator。最后的CTR预估即使用它们的内积。
这里写图片描述
注意到，直到最后的内积阶段才有用户相关和广告相关特征的交互。因而，可以预先离线计算用户和广告表示，以便于在线服务只用聚焦于内积阶段，大大减少了总共的计算负载。

7 实验

7.1 数据集和评估指标

实验数据来源于淘宝展示广告系统，细节上，我们利用日志数据构建了一个封闭数据集从2017年7月的任意连续的19天。我们使用前18天作为训练集，剩下的天作为测试集。总的来说，数据集有39亿训练样本和2。19亿测试样本。我们使用27类ID特征，包括用户简介、用户行为、广告描述和场景描述，这些都是从高度优化的在线配置中简化的。对于离线评估指标，我们采用AUC（Area Under ROC Curve）其常用于广告/推荐系统。除此之外，我们也使用了Group AUC(GAUC)。
GAUC是所有用户的AUC的加权平均： $GAUC = \frac{\sum_{i}impression_{i}*AUC_{i}}{\sum_{i}impression_{i}}$ ，其中 $impression_{i}$ 和 $AUC_{i}$ 是第i个用户对应的曝光次数和AUC。在现实广告系统中，GAUC被证明相对于AUC或者交叉熵损失来说测试性能是更加有效的。由于系统是个性化的并且聚焦于对每个用户进行预估。

7.2 训练细节

为了加速和减少存储损耗，我们采用常见的特征方法，细节上，我们将相同的用户组合成一个样本组，分享用户相关特征作为公共特征，和“Learning Piece- wise Linear Models from Large Scale Data for Ad Click Prediction.”一样。
为了描述用户行为，我们选择一个特定用户过去14天的click行为，由于来自现实系统的原始数据是含有噪声，我们利用合理的长时间访问来选择典型的点击行为。我们经验性的发现这种过滤策略实现了更好的性能。用户的平均行为从200过滤到了32.6.
我们使用PReLU来作为每一层的激活函数，因为我们经验性的发现它的优越性。使用Adam的参数优化方法，初始学习率设置为0.001，每24000样本batches后减少0.9，模型在2个epoch之后收敛（在我们场景中12.8万次迭代）
部分预热（Partial warm-up），参数初始化被广泛使用，对于我们系统需要天天更新的方案是非常有好处的，我们能够使用上一天训练过的模型来初始化而没有任何额外的损失。可以看到DICM的每个部分以不同的速度收敛，ID embedding倾向于过拟合，因为ID的稀疏性和巨大的参数尺寸。同时image embedding模型要求自购的训练来捕获到视觉信息和用户意图之间的高度非线性相关性。所以我们提出了partial warm-up方法，细节上，我们使用预训练（但是使用不同时间的训练数据）的模型来作为所有部分除了ID embedding之外（图像embedding模型，提取器和MLP部分）来初始化，然后随机初始化IDembedding部分。

7.3 AMS的有效性研究

在我们的应用中，我们首先研究了AMS在PS架构上的效率优势。细节上，我们比较了下面两种可能方式来存储涉及到的图像。
（1）PS-worker，在worker点中存储图像，以及其他训练集。
（2）PS-server，在server点上存储图像作为全局数据集。
为了给出定量的结果，我们总结了我们典型的场景。有总共39亿训练样本由一个20个节点的GPU集群进行处理。对于每次训练迭代，每个GPU节点上mini-batch设置为3000，因此有效minibatch大小为6万。在每个样本中，用户相关的平均32.6幅行为图像。利用公共特征方法，每个有效的minibatch设计到大约32万张图像和140万ID（不包含图像ID），训练过程中有总共1.2亿独一无二的图像，每个都预处理成4096维浮点数特征作为训练输入。
我们比较了AMS和两个替代品如表2中，我们看到AMS实现了很好的系统。而PS-worker和PS-server策略则遭遇到了弱势w.r.t存储或通信负载。细节上，PS-worker相较于AMS要求31倍的存储量（5.1G vs 164M），而PS-server相较于AMS消耗了32倍的通信。（5.1G. vs 158M）
这里写图片描述

7.4 模型简化测试

我们首先利用本节离线实验来单独的研究我们方法的各种设计细节。为了公平的比较，partial warm-up策略默认没有使用，除非特别说明。
Baseline。我们在所有离线实验上的Embedding&MLP模型上只利用稀疏ID特征设置我们的baseline模型，如图2。其为淘宝展示广告系统中的生产模型简化版本。注意到两个特别的ID域也被利用在baseline中作为稀疏特征：广告图像的ID和用户行为图像的ID，这两个ID域对于一个公平的比较都是必不可少的，因为图像特征事实上能够是ID中的部分，对于两个模型我们应该保证一个公共基础来展示图像语义信息的提升。除此之外，我们采用自适应规则来处理ID特征的过拟合问题。
研究图像信息。DICM整合用户行为图像和广告图像。本节，我们对他们的有效性做了实验，为此，我们从baseline出发，分别使用广告图像、行为图像以及两者。表3显示了离线数据集上的结果。可以观察到要么行为图像要么广告图片都会比baseline好，通过在用户和广告建模中引入视觉特征显示出了积极的效果。更进一步，联合建模行为图像和广告图像将大大提升性能，值得注意的是，联合收益远远大于它们各自带来的收益总和。这一结果哦有力的说明了通过视觉信息建模用户和广告的协同效果，这是DICM带来的一个理想效果。
这里写图片描述
对行为图像聚合的研究。我们详细描述了5.2节中描述的不同聚合的效果，行为图像embeddings在模型中被利用。结果如表4所示，观察结构有三个方面：
（1）串联不适合行为聚合，提供了劣质的表现，求和/最大池化有合理的改进。
（2）AttentivePooling用广告图像作为attention查询带来了显著的提升。
（3）MultiQueryAttentivePooling带来了最好的结果，得益于稀疏ID和图像中语义信息的交互。
这里写图片描述
对不同的基础结构的研究。我们的工作集中于利用联合用户行为和广告的视觉信息提升CTR预估模型，为了传统稀疏特征设计的基础网络结构不是本文的核心主题。我们假定DICM能够应用在不同的基础网络上，利用图像特征带来一致的提升。为了证实这个，我们在经典的LR模型和最近提出来的DIN模型以及baseline的Embedding&MLP上测试了DICM，如图5比较了这些模型的GAUC的离线指标。能够看出利用图像的模型一致优于只用ID特征的模型。利用图像的DIN获得了最好的效果，并且大大超越了经典的DIN。在LR上使用图像信息提升不那么明显，因为LR模型不能完全利用图像的高维语义信息。
这里写图片描述
对partial warm-up的研究。我们通过和没有warm-up相比较经验性的研究了warm-up策略，如表5中，partial warm-up表现最好，full warm-up在ID embedding参数中由于server过拟合效果更差了。

7.5 DICM的结果

本节中，我们使用partial warm-up策略和MultiQueryAttentivePooling的最好配置的DICM与baseline通过离线指标进行比较。在线A/B测试也进行了并且在生产中有最先进的提升。
离线结果。我们首先用离线数据集评估了我们的DICM模型，partial warm-up策略和MultiQueryAttentivePooling才采用。表6和图6显示了baseline和最佳配置的DICM的比较结果。可以从图6中看到，baseline和DICM之间的差异在训练过程中是几乎不变的，说明我们方法的鲁棒性。
这里写图片描述

在线A/B测试。在在线A/B测试中，为了与生产环境一致，我们用生产中最先进的方法（一种更复杂设计特征的Embed&MLP模型的高级版本）来代替我们模型DICM的基础网络。比较结果在DICM和生产模型之间，考虑了广告系统的三个重要指标：CTR、eCPM和GPM（每100次的总商品价值），列在表7中，DICM在在线A/B测试中的一个7天长的统计数据实现了一个一致的收益。考虑到淘宝的大尺寸和高度发展的广告系统，这种一致的在线提升是非常重要的，DICM已经被部署到了淘宝的展示广告系统，为5亿用户和数百万广告主提供服务。
这里写图片描述

7.6 应用到Pre-rank

最后，我们评估了应用DICM在Pre-rank阶段的性能，网络描述在图4中。用离线数据集训练，在表8中，DICM再一次在GAUC和AUC中超越了baseline。这个结果表明我们的框架能够推广到广告/推荐系统的其他CTR预估任务中。
这里写图片描述

8 结论

本文，我们提出了一个最新且有效的分布式机器学习平台叫AMS，得益于它，我们能够在展示广告中利用大量的行为图片来捕捉到用户的CTR预估兴趣。我们设计了一个叫DICM的完整体系结构，其对于用户和广告描述联合学习了ID和视觉信息，通过离线和在线实验描述了其优越性。由于用户行为通常包含大量的跨媒体信息，如评论，详细描述，图像和视频，我们相信我们提出的AMS和模型研究也能有利于这个方向的未来工作。

深度学习之Deep Image CTR Model