[推荐系统 04] 推荐系统冷启动问题

看完了尚硅谷机器学习和推荐系统项目实战教程,又觉得基础部分学的太散了。没有把大体的体系学好。
因此,找来了 项亮的推荐系统实践一书。打算把知识体系梳理一遍。

推荐系统冷启动问题

1. 什么是冷启动问题?

从前面我们知道了,基于协同过滤的推荐系统是根据用户历史行为和兴趣预测用户未来可能的行为和兴趣,所以推荐系统是在大量用户数据的基础上,才能构建的。但是一般情况下,一个新系统/软件的开发,是没有那么多用户的。相反,为了提高新用户的体验,我们就想要引入推荐系统。那么这样就存在一个问题,系统应该根据什么模式来推荐用户喜欢的东西?这就是一个冷启动问题。

冷启动问题主要分三类:① 用户冷启动、 ② 物品冷启动、 ③ 系统冷启动。

2. 用户冷启动

顾名思义,用户冷启动的意思就是,一开始系统内有新用户加入时候,我们不知道新用户的行为数据,系统内也没有。因此,在新用户到来时,我们没有他任何的行为数据,无法通过历史行为预测兴趣,给新用户/用户任何个性化推荐。

解决方案:
① 提供非个性化的推荐。我们不清楚用户的行为,但是我们知道物品的热门排行,那么热门的物品有很大的可能性就是用户喜欢的。这样解决冷启动后,后期在通过收集用户行为数据,采用不同推荐方式。

② 用户注册信息:我们在注册一个软件的时候,系统往往会让我们填写信息,包括姓名、性别、生日、兴趣……系统可以通过这些标签给我们推荐。
这种方式的个性化粒度很粗,也就是说个人信息一般选择项的标签都是有限的,比如性别,我们只能划分为男女,按照性别推荐,我们就只能把物品分成男性喜欢的和女性喜欢的两类。
这种方式的基本流程为:获取用户的注册信息;根据用户的注册信息对用户分类;给用户推荐他所属分类中用户喜欢的物品。

③ 用户注册登录后,给予调查。如给调查问卷、给一些物品让用户反馈喜欢的类型。实际上,这就是在收集用户行为数据。
一般来讲,问卷调查,让用户对物品进行评分来收集用户兴趣的这种方法,首先要保证调查的物品具有一下特点:热门性;代表性和区分性;多样性。
热门性:保证了用户是了解该物品的。
代表性和区分性:是为了能够将用户群体划分出来的,如果一部电影大家都喜欢,那就划分的可能就很小。
多样性:物品类型的多样性能够保证物品集合有较高的覆盖率,覆盖用户各种兴趣爱好。

3. 物品冷启动

物品冷启动主要问题就是,新物体的加入。这个物体的类型比较新颖,而且又没有热度指标。系统无法给它进行划分,推荐给可能喜欢这个东西的群体。

解决方案:
对新加入的物品,利用其内容信息作分析。然后就可以得到与它近似的物品,将它们推荐给喜欢过和他们相似物品的用户。
例如对物品的描述信息,通过对所有物品的描述信息进行建模,提取有用信息、关键信息。找到物品之间的关联性,进行分类。
这里用的模型可以是一些特征提取器,降维方法。——LDA算法,TF-IDF。

4. 系统冷启动

系统冷启动问题,这个问题主要表现在一个新开发的系统上,新开发的系统上可能还没有用户,当然也不会有行为数据。那此时我们想要让新用户有很好的体验,就要解决系统冷启动的问题。

解决方案:
在系统冷启动时,可以引入专家的知识,通过一定的高效方式迅速建立起物品的相关度表。
例如,找到一些专家,对物品进行特征标注。通过特征标注以及机器学习相结合的方法解决系统冷启动问题。

猜你喜欢

转载自blog.csdn.net/weixin_41809530/article/details/107247482