视频技术系列 - 短内容冷启动推荐方法,最小收益最大化

作者,中国移动李琳,咪咕灯塔

在众多内容平台中存在严重的马太效应,现象表明,热门内容逐渐走向流行,例如大量歌曲长时间得不到曝光,使得平台数据开始服从长尾分布,即20%的热门内容聚集了74%的收听行为。对千万数量级的音乐曲库来说,用户行为的数据稀疏性比其他内容(如书籍、电影)平台更为严重,此外,每天新上架的作品会进一步加剧数据的稀疏性。为了缓解数据稀疏导致的不精准推荐问题,当前主流方法是将用户和歌曲分别映射到相同的稠密语义空间,然后利用用户和歌曲在该空间中的内积来挖掘用户对歌曲的偏好关系。虽然这种方法在一定程度上提升了歌曲推荐的准确率,但仅能挖掘用户与歌曲的一般性关系,无法从全局和细粒度层面区分用户对歌曲局部特征的偏好程度。加之,大量新上架歌曲和非热门歌曲导致模型在不同数据稀疏度下的鲁棒性下降。

对于短视频内容的,冷启动用户观看的内容,如何尽可能覆盖到用户的偏好,从而发现用户兴趣,进行用户推荐的实时性和精准性,一直是个研发课题。对于冷启动用户常推荐热门视频或将视频内容先根据特征做分类聚类,使用GBDT+LR算法或深度学习算法wide&deep对视频内容质量评分,预测新上架视频内容的点击率,然后将尽可能宽范围的视频按评分推荐给用户,以尽可能覆盖到用户的偏好,从而发现用户兴趣,进行用户画像,完成冷启动。

一、冷启动问题中的难点

推荐系统的冷启动一直是工业应用中的难点,成为热门的视频一定是很多用户已经点击观看过,不再是很新的内容,新内容在得到用户的直接行为反馈前,预测的内容评分值并不能真正衡量内容的质量。针对热点内容不新,新内容不热的矛盾,我们通过内容特征的最大点击率预测该内容被点击的最大可能性,结合高效的宽范围内容数据的计算方法,快速获得用户反馈,计算出真实的内容点击率。

内容数据越多覆盖的范围才能越宽,所以要获取宽范围的内容数据,需要积累一段时间的内容数据再作计算,而要快速得到用户对内容的反馈,则需要将内容尽快的推给用户。通过分类聚类,取多个类簇来保证宽范围的内容数据的计算方法,都需要积累一定的数据量再做计算,在积累计算数据与快速收集用户反馈之间取平衡。我们的方法,以使推荐列表的内容发生至少一次点击的概率最大化为目标,可以高效的计算出足够宽范围的推荐内容列表,实时的将新内容推荐给用户,快速拿到真实点击反馈,再动态调整各类数据的比例以及内容在推荐列表中的顺序。

二、提升推荐系统冷启动效果的实践方案

聚焦以推荐内容发生至少一次点击的概率最大化为目标,取新内容的最大点击率预测结合快速的宽范围内容计算,快速迭代以用户点击反馈驱动推荐列表中各类数据的比例和内容顺序的调整,实现最小收益最大化。

为留住用户,推荐系统需要尽快计算出新用户的偏好,然后针对性的为用户推荐其感兴趣的内容。假设用户点击反应出用户的内容偏好,本申请的技术以推荐内容发生至少一次点击的概率最大化为目标,改进冷启动用户的短视频推荐效果。算法流程如下图1所示:

1、系统流程图
图片

2、推荐内容的数学模型抽象

以推荐列表中的内容发生至少一次点击的概率最大化为目标,抽象出最小收益最大化目标函数模型:
图片
其中(Y)为推荐内容列表,P(Y)为该推荐列表被点击的概率。

3、特征向量的抽取

本文的推荐冷启动算法首先抽取短视频内容的特征向量,
图片,
其中yi为视频内容i的特征向量,xj为第j维特征。

4、计算视频内容点击率
以视频内容的点击率作为该视频内容曝光给用户后被点击的概率,为视频内容曝光后的被点击概率。
图片                      (2)
其中Cy为内容yi的点击数,Sy为内容yi的曝光数。

5、视频分类及是否时效的区分
对视频内容进行分类,分为如新闻、资讯等时效内容,以及如搞笑、猎奇等非时效内容,将时效内容和非时效内容分别按照点击率高低排序、作为两类内容召回源R0,R1。

6、新内容及其最大点击率预测
对于新入库的视频内容,不能直接计算得到点击率,则取出视频内容的特征如视频中涉及到的人名、地名、内容名、实体名、事件名、视频内容的作者属性等组成特征向量,根据内容的特征向量预测点击率。基于最小收益最大化目标,即一个内容推荐给用户后被点击的最大概率,取内容所有特征中点击率最大的特征对应的点击率作为该内容的点击率预测值。
图片         (3)
其中Px为特征xj的点击率。把新内容按预测点击率高低排序、作为第三类内容召回源R2。

7、分类点击率排序召回
基于当前冷启动用户总体点击率(冷启动算法推荐节目点击量除于冷启动算法推荐节目曝光量,如平均推荐10条内容有一条会被点击,则当前的算法总体点击率为10%,为保证取得用户偏好,即用户至少发生一次点击行为,需要给用户曝光10条内容),可计算出取得一次点击需要的最少节目数为:
在这里插入图片描述

其中round为四舍五入取整。将三个分类的节目按点击率高低排序后组成各分类召回列表。

8、宽范围内容选择
从三个分类的召回列表中取M个节目,使M大于等于N,且M个节目中三个分类的节目数都大于0。
在这里插入图片描述
其中Cr为召回源Ri的召回数量。

9、用户在一天中的不同时段对各分类节目的需求程度不同,如早上用户更想知道有什么新鲜事发生(新内容需求更大),中午对大家都在看什么更感兴趣(时效内容需求更大),到晚上了大家更喜欢看搞笑猎奇的节目(非时效内容需求更大),由此根据当前时间段对新内容、时效内容、非时效内容分别加权后生成N个最大范围的节目列表
图片
其中Ri为节目i所属分类Ti的权重,Rj为节目j所属分类Tj的权重。

10、最小收益最大化重排模型
结合目标函数公式(1)和限制条件公式(2)(3)(4)(5)(6)得到如下最大化最小收益模型
图片

实现该模型的步骤为:

STEP1:生成临时列表L。

STEP2:取三类内容中点击率最高的节目加入列表L。

STEP3:从M个节目中取与列表内节目特征向量欧式距离最大的节目加入列表,按此迭代直到列表中节目数为N。

STEP4:将列表中N个节目加入推荐列表,清空列表,跳转STEP1。

按照以上算法步骤,每次取出N条节目加入推荐列表,列表中各类节目的占比完全由点击率和内容范围最大化目标动态生成,如此循环计算,得到的宽范围内容列表即为满足最少一次点击的概率最大化的推荐列表。

11、推荐列表的生成与更新
当有新的短视频内容上架,或者推荐列表的曝光数积累到某阈值,则更新所有节目的点击率,新内容如果已经有用户行为,则使用实际点击率(公式(2)可计算得到),根据实效和非实效分类分别加入实效内容和非实效内容,重新生成实效内容和非实效内容召回列表,没有用户行为的节目仍进行点击率预测(通过公式(3)可计算得到),重新生成新内容的召回列表

三、优化效果

线上ABtest显示:本文算法的冷启动用户点击率,相比于分类簇按热度排序的推荐召回集(点击率6.5%-7.2%)提升33%。相比于分类簇按新鲜度排序的推荐召回集(点击率6.2%-6.8%)提升26%,使冷启动点击率达到12%。

猜你喜欢

转载自blog.csdn.net/weixin_47700780/article/details/115032585
今日推荐