导读

我们对电商场景兴趣建模的理解愈发清晰：1. 通过预估目标item的信息对用户过去的行为做search提取和item相关的信息是一个很核心有效的技术。2. 更长的用户行为序列信息对CTR建模是非常有效且珍贵的。从用户的角度思考，我们也希望能关注用户长期的兴趣。但是当前的search方法无论是DIN和DIEN都不允许我们在线对一个超长的行为序列比如1000以上做有效搜索。所以我们的目标就比较明确了，研发一个可以根据预估目标item信息对用户全生命周期行为进行search，获取该item相关信息的方法

方法

直接用类似DIN或者DIEN的方案对全行为序列search无疑是在线计算时无法接受的，因此我们想到了能否把搜索解开来，在文中我们提出了两阶段的search模式：general search 和 exact search。从精度角度我们将搜索拆解为一个相对粗糙普适的搜索和一个更为具体精确的搜索。从计算过程角度我们希望general search的大部分计算可以离线完成，并且将历史行为的数量缩小到几百的量级，给exact search部分的建模保留充足的计算复杂度空间。

exact seatch部分我们没有投入太多的精力，可以把它看做是一个短序列建模问题，用DIN/DIEN或者一些其他的类似结构皆可行。当然在长序列建模里，我们发现以前尝试不那么有效的时间信息影响变大了，因此在exact search这部分引入了时间信息，具体的做法可以看披露的论文SIM。核心的难点还是在general search部分，研发过程中有两种思路：1. 用参数化的方式，我们通过对用户的行为和item进行向量化，然后用基于内积的近似最近邻检索出Top_K个相关的行为，比如这篇文章Maximum Inner Product Search (MIPS)[5]。在线计算CTR时，通过向量对每个用户的历史行为构建一个基于内积距离的近似近邻层次索引，每个item可以高效的检索与其相关的行为。具体此方法的在线和离线实现可以看看论文，这里不详细介绍。2. 在实践过程中，我们发现电商数据天然的账户体系或者结构性让general search有更简单的实现方式。电商场景用户行为大部分交互对象也是item，item有其固有的类目信息category，我们可以对每个用户的历史行为基于category构建一层索引，类目相关的行为可以离线进行挂载。整体用户的行为数据会被构建为一个 key1-key2-value 的结构，一级索引 $key_1$ 为user，二级索引 $key_2$ 为类目category，value为该类目下的行为序列，或者也可以进一步扩展为类目相关的行为序列。在线的时候根据用户信息以及每个预估目标商品的类目进行general search，得到一个和当前item相关的子序列。general search后的结果根据我们的数据特性大致会从几万的原始行为量级降低到几百，这个量级就可以轻松的完成在线通信、实时的exact search计算以及CTR的计算。需要注意的是无论是索引结构存放的数据和general search后的结果，都是用户的行为序列原始信息，可以是原始的ID序列。这样保障了我们对信息仅仅做了general search这一步选择维度的过滤，没有类似embedding这样的信息压缩，最大程度的保留了原始信息。

当然了这种简化的general search在我们的离线实验中表现的效果还是弱于基于向量检索的方式，但是其实现成本非常低，只需要有一个支持key-key-value存储的data base就能轻松的实现。同时在线计算部分只增加了exact search的计算开销，能比较轻松的在线服务。并且其对未来的进一步模型迭代也未增加太多成本。综合下来我们选择了这个简化版本的SIM。用category或者其他粒度合适的item描述信息作为一个固定的索引结构，新增的行为可以增量的更新这个索引，训练的时候索引部分是非参的，不会在训练过程中变化。因此可以用最新的检索结果可以对所有的参数进行端到端的训练，相当的轻便，非常适合在实际工业场景中部署。当然所处的数据环境如果没有对行为数据进行类似category这样的结构化处理，那么就得想办法构建其他的索引结构了。

SIM在我们看来更大的贡献是提供了一个思路以及具体的两种实现方式。我们目前在线采用的是非参数化的general search。对general search部分进行参数化，比如我们文中提出的使用向量的方式，可以进一步提升效果和扩大该模块未来的迭代空间。如何去对构建的索引做建模，如何进一步的提升general search的精度和效率，都是未来可以进一步迭代的。但是值得一提的是general search部分的参数化会带来额外的系统迭代负担，这部分参数日常学习与更新，学习的遗忘，学习结果的存储都是较大的挑战。当然这也给大家留下了探索和研究的空间。

模型结构

上图左侧是第一个阶段，即初步筛选。这里分为两个策略，第一个是soft search, 第二个是hard search。soft search是用候选item的embedding去和用户行为序列中的每一项的embedding去做点积，然后去top-K。这里可以使用的是一些高效方法是ALSH和MIPS的，都是已有的方法，咱们在基于Delaunay图的快速最大内积搜索算法中介绍过MIPS的方法。hard search是利用item的一些元信息，比如商品类别，在用户的行为序列中进行选择，这个方法是无参的。两种策略公式如下图: