京东基于视觉的点击率预估模型论文学习

Telepath: Understanding Users from a Human Vision Perspective in Large-Scale Recommender Systems -2017 AAAI 2018 京东-基于计算机视觉的电商推荐技术

论文链接：https://arxiv.org/ftp/arxiv/papers/1709/1709.00300.pdf

理解

从用户视觉的角度来反映图片/文字等信息对CTR的影响。

从用户视觉的角度来看，有两个关键方面会影响用户的行为：一是商品的吸引力；二是商品与当前用户兴趣的匹配度。

Telepath模型是融合了CNN、RNN、DNN这三种不同的神经网络模型的结果。

其中CNN是用于模拟用户的视觉系统从而提取出体现商品吸引力的关键的视觉信号（key vision signal）；

而RNN和DNN则是基于用户的浏览商品行为来模拟其兴趣信息。这样一个模型在京东的推荐系统和广告系统中中得到应用，并取得了效果提升。

Vision Extraction Module

输入数据是用户最近浏览过的N个商品，以及待预估商品的图像信息，该module用于模拟用户的视觉系统从而提取出体现商品吸引力的关键的视觉信号（key vision signal），并表示成向量用于后续处理。相比于传统的item-to-vector方法，其对于展现次数较少的长尾商品的拟合更好，能够更好地解决物品冷启动问题，并具有更好的特征表达能力（可以表达例如颜色等信息）。使用CNN是因为其适用于处理图像信息。

Interest Understanding Module

基于上述Vision Extraction Module产出的体现商品吸引力的关键的视觉信号信息，可以使用用户最近浏览的商品的这些信息来得到用户的兴趣偏好，故使用了RNN这样一个适用于处理序列信息（用户浏览商品序列）的模型；而DNN适用于处理序列中隐藏的用户偏好信息。

Scoring Module

现在可以使用的特征包括：待预估商品的图像信息；用户的偏好信息；用户和商品的统计类信息。前两者是使用Vision Extraction Module和Interest Understanding Module得到的；而第三种信息则是一使用wide&deep model得到的特征向量，wide部分用于学习特征交叉的记忆类信息，deep部分用于学习隐藏的特征组合信息。最后将这三种特征组合进行打分预测。

参考： https://www.cnblogs.com/bentuwuying/p/8061493.html

排序引擎

分为三个组件：一个是视觉感知模块（Vision Extraction），它模拟人脑的视神经系统，提取商品的关键视觉信号并产生激活；另一个是兴趣理解模块（Interest Understanding），它模拟大脑皮层，根据视觉感知模块的激活神经元来理解用户的潜意识（决定用户的潜在兴趣）和表意识（决定用户的当前兴趣）；此外，排序引擎还需要一个打分模块（Scoring），它模拟决策系统，计算商品和用户兴趣（包括潜在兴趣和当前兴趣）的匹配程度。

和wide&deep对比：点击率（CTR）和GMV都有显著的效果提升

serenysdfg

发布了105 篇原创文章 · 获赞 27 · 访问量 2万+

私信关注