推荐系统冷启动问题

冷启动问题

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动的问题。

 

1、利用用户注册信息——用户冷启动

基于用户注册信息的推荐算法其核心问题是计算每种特征的用户喜欢的物品。即,对于每种特征f,计算具有这种特征的用户对各个物品的喜好程度p(f,i)

p(f,i)可以简单的定义为物品i在具有f的特征的用户中的热门程度

p(f,i)=|N(i)\capU(f)|

但由于热门的物品会在各种特征的用户中都具有比较高的权重,推荐系统应该帮助用户发现他们不容易发现的物品

因此p(f,i)=\frac{\left | N(i)\cap U(f) \right |}{\left | N(i) \right |+\alpha }

参数\alpha是为了解决数据稀疏问题     #会不会对原来的有影响

使用Lastfm数据集对比使用不同的人口统计学特征预测用户行为的精度,利用p(f,i)=|N(i)\capU(f)|计算每一类用户对物品的兴趣程度

其中MostPopular粒度最粗,DemographicMostPopular粒度最细

 2、选择合适的物品启动用户的兴趣——用户冷启动

(1)比较热门

(2)具有代表性和区分性

(3)启动物品集合需要有多样性

如何设计一个启动物品集合的系统???

Nadav Golbandi——将用户分为3类,喜欢物品i的用户、不喜欢物品i的用户和不知道物品i的用户,若这三类用户集合内的用户对其他物品兴趣很不一致,说明物品i具有较高的区分度——决策树

3、利用物品的内容信息——物品冷启动

UserCF在 给用户进行推荐时,会首先找到和用户兴趣相似的一群用户,然后给用户推荐这一群用户喜欢的物品。在很多网站中,推荐列表并不是给用户展示内容的唯一列表,那么当一个新物品加入时,总会有用户从某些途径看到这些物品,对这些物品产生反馈,当一个用户对某个物品产生反馈后,和他历史兴趣相似的其他用户的推荐列表中就有可能出现这一物品,从而更多的人就会对这个物品产生反馈,从而逐步展示到对它感兴趣用户的推荐列表中。

但有些网站推荐列表可能是用户获取信息的主要途径,那么对于UserCF算法就需要解决第一推动力的问题,即第一个用户从哪儿发现新的物品。最简单的方法是将这些物品随机展示给用户,但这样显然不太个性化---------可以考虑利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容类似的其他物品的用户

ItemCF的原理是给用户推荐和他之前喜欢的物品相似的物品,ItemCF算法会每隔一段时间利用用户行为计算物品相似度表(一般一天计算一次),在线服务时ItemCF算法会将之前计算好的物品相关度矩阵放在内存中,因此,当新物品加入时,内存中的物品相关度表不会存在这个物品,从而ItemCF算法无法推荐新的物品。解决这一问题的办法是频繁更新物品相似度表,但基于用户行为计算物品相似度是非常耗时的事情,主要原因是用户行为日志非常庞大。而且,新物品如果不展示给用户,用户就无法对它产生行为,通过行为日志计算是计算不出包含新物品的相关矩阵的。-------------------推荐列表并不是给用户展示内容的唯一列表

一般来说,物品的内容可以通过向量空间模型表示,该模型会将物品表示成一个关键词向量

向量空间模型的优点是简单,缺点是丢失了一些信息,比如关键词之间的关系信息,不过,在绝大多数应用中,向量空间模型对于文本的分类、聚类、相似度计算有不错的结果

若是文本形式

对于中文,首先要对文本进行分词,将字流变成词流,然后从词流中检测出命名实体(如人名、地名、组织名等),这些实体和一些其他重要的词将组成关键词集合,最后对关键词进行排名,计算每个关键词的权重(TF-IDF),从而生成关键词向量

在给定物品内容的关键词向量后,物品的内容相似度可以通过向量之间的余弦相似度计算

 

话题模型:一个人在写一篇文章时,会首先想到这篇文章要讨论哪些话题,然后思考这些话题应该用什么词描述,从而最终用词写成一篇文章

LDA(Latent Dirichlet Allocation)

4、发挥专家的作用

Pandora是一个给用户播放音乐的个性化电台应用。计算音乐之间的相似度是比较困难的。首先,音乐是多媒体,如果从音频分析入手计算歌曲之间的相似度,则技术门槛很高,而且也很难计算的令人满意。其次,仅仅利用歌曲的专辑、歌手等属性信息很难获得令人满意的歌曲相似度表,因为一名歌手、一部专辑往往只有一两首好歌。音乐基因!使用N个特征标注完所有的歌曲,每首歌都可以表示为一个N维的向量,然后通过常见的向量相似度算法可以计算出歌曲的相似度

猜你喜欢

转载自blog.csdn.net/qq_35134144/article/details/83444620