一、基本信息
论文题目:《Item-Based Collaborative Filtering Recommendation Algorithms 》
发表时间:WWW 2001
论文作者及单位:
论文地址:https://dl.acm.org/citation.cfm?id=372071
二、摘要
推荐系统将知识发现技术应用于在实时交互过程中对信息、产品或服务进行个性化推荐的问题。这些系统,尤其是K-最近邻协同过滤系统,在网络上取得了广泛的成功。近几年,可用信息量和网站访问量的巨大增长对推荐系统提出了一些关键挑战。它们是:生成高质量的建议,每秒为数百万用户和项目执行许多建议,并在数据稀疏的情况下实现高覆盖率。在传统的协同过滤系统中,工作量随着系统参与者数量的增加而增加。需要新的推荐系统技术,可以快速产生高质量的推荐,即使是对于非常大规模的问题。为了解决这些问题,我们探索了基于项目(Item-based)的协作过滤技术。基于项目的技术首先分析用户项目矩阵以识别不同项目之间的关系,然后使用这些关系间接计算用户的建议。
本文分析了不同的基于项目的推荐生成算法。我们研究了计算项目项相似性的不同技术(例如,项目项相关与项目向量之间的余弦相似性)以及从中获得建议的不同技术(例如,加权和与回归模型)。最后,我们对实验结果进行了评估,并将其与K-最近邻法进行了比较。我们的实验表明,基于项目的算法比基于用户的算法提供了显著的更好的性能,同时提供了比最佳的基于用户的算法更好的质量。
三、论文的主要内容与工作
1、传统的推荐方法存在两大不足,分别是可扩展性差(当用户数量太多时,user-based算法计算时间长)和推荐效果不好,针对这两个缺点,本文提出了一种Item-based算法。
2、总结了贝叶斯网络、聚类、Horting算法应用于推荐系统时,各自的优缺点与适用场景。
3、文章的主要贡献可以归纳为3点
- 分析了基于项目的预测算法,并确定了实现子任务的不同方法。
- 设计了预先计算的项目相似性模型,以提高基于项目的建议的在线可扩展性。
- 实验比较了几种不同的基于项目的算法与传统的基于用户的(最近邻)算法的效果。
4、介绍了度量Item相似度的方法,分别是cosine-based similarity, correlation-based similarity and adjusted-cosine similarity.
5、预测用户对Item评分的两种方法:Weighted Sum和Regression
6、详细实验过程与步骤
四、结论
1、基于项目的算法在所有稀疏级别上都比基于用户的算法提供更好的质量,但这种改进并不是很大
2、基于回归的算法在非常稀疏的数据集上性能更好,但是随着我们添加更多的数据,质量会下降。作者认为,当回归模型从高密度水平的数据溢出中起诉时,就会发生这种情况。
3、Item-based算法中使用的邻域是比较稳定的,变化不会太大,可以预先计算,这会导致非常高的实时性能。
4、为了提高推荐系统的可扩展性,需要新的技术,本文提出了一种基于CF的推荐系统算法,并对其进行了实验评估。结果表明,Item-based的技术有希望将CF的算法扩展到大数据集,同时产生高质量的建议。