随着网站规模的扩大，内容也相应的与日俱增，涵盖的频道也越来越繁杂，在如此海量的信息平台下，如何更好的服务用户成了各门户网站的首要任务。从用户需求的角度考虑，对内容的判断标准无疑是用户对此内容是否感兴趣。“千人千面”算法在互联网行业已经不是个新鲜的词汇，但如何做到对用户兴趣的精准匹配仍是难点，特别是对图片、视频等非文本内容来说，因为本身缺乏描述性文本，因此兴趣标签成为一种非常重要的语义素材。本文主要介绍根据优酷用户历史行为构建的兴趣标签模型，模型能够及时捕捉用户兴趣的变化，调整个性化兴趣标签的排序，从而达到提高精准推荐和个性化推荐的效果。

1．模型数据流程

模型从用户行为出发，最终定位用户的兴趣标签，根据行为权重、时间衰减等因素，计算标签权重并排序。流程如下所示：
数据流程

在用户行为的选取上，登录用户考虑的用户行为包括观看、搜索、收藏、评论、顶踩和上传，未登录用户考虑的用户行为则只有观看和搜索。

1.1 用户行为数据采集

在本项目中，我们选取了最近180天内的用户行为，每天将新的行为数据和历史数据进行累加计算。

1.2 视频Tag信息

视频都有一些特定的分词标签描述，一般是通过视频标题和描述分词提取出来的，可以单独使用这些分词，也可以用机器学习算法给标签打上不同的权重，来标识标签不同的重要性。
视频tag

1.3 用户兴趣标签

用户兴趣标签体系是一个分层级表示用户兴趣的结构，目的是为了从不同的粒度定位用户的兴趣。从视频分词标签到用户兴趣标签有一个映射关系，目前视频分词标签量级为百万，用户兴趣标签有8万左右。我们给用户打上下一层级标签的同时也会打上上一层级的标签。

2. 用户兴趣标签权重计算规则

2.1 用户行为打分规则（每日）

我们对用户不同的行为类型设置了不同的权重。如此设定行为权重带有一定的主观性，但设定值符合大多数用户的行为特点，也可以快速推进项目的进行。在下一版的改进计划中，拟先对用户进行一次聚类，然后对每个聚类群体利用回归算法迭代出一组最优权重值，从而使权重的设定更具有针对性。下面主要介绍下观看行为打分规则。
主要考虑因素如下：
1、视频观看比例，用户一天内的观看比例有可能多倍于视频长度。
2、降低短视频的打分值。
3、考虑视频播放次数的因素。
4、限定打分范围。

2.2 用户视频Tag打分规则

将用户行为融合，并转化成对视频标签的打分。在生成用户Tag打分数据时，我们考虑以下几个因素：
1、时间衰减系数。用户行为距当前时间越近的影响越大，因此从用户标签上可以反应该用户最近的兴趣点。
2、每天Tag数量衰减系数。考虑到用户某一天内对某一标签的集中行为有可能会拉偏此用户的兴趣点，因此添加了tag数量的衰减。
行为融合

2.3 用户兴趣标签打分规则

这一步只是简单的将视频标签映射到用户兴趣标签分级体系，累加得到兴趣标签分值并按由高到低进行排序。结果数据形式如下，Weight为该兴趣标签分值占总标签分值的百分比，Support为该兴趣标签的累加分值。
打分结果展示

小结：

虽然目前的兴趣标签模型还存在一些不足之处有待进一步改进，但引入用户兴趣模型确实可以在一定程度上更精确的定位用户的兴趣，进而提高个性化推荐的质量。此外，如何优化兴趣标签的提取也会直接影响着模型的精度。

基于用户行为的兴趣标签模型