一、基本信息

论文题目：《Improving regularized singular value decomposition for collaborative filtering 》

发表时间：KDD Cup 2007

论文作者及单位：

论文地址：http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=150DC27A1C2347805AB196EAF55084FF?doi=10.1.1.115.3847&rep=rep1&type=pdf

二、摘要

推荐系统的一个关键部分是用来预测用户对物品偏好的协同过滤算法。本文描述了一种将不同的高效协同过滤技术组合起来的框架，用以达到良好的预测效果。
本文所描述的方法是预测用户对Netflix Prize数据集的电影偏好的解决方案中最重要的部分，其错误率比参考算法Netflix Cinematch高7.04%。
用来预测的部分包括Netflix奖参赛者建议的算法：有缺失值的数据的正则化奇异值分解、k-均值、用knn后处理SVD。我们提出使用以下方法扩展预测部分：将偏差添加到正则化SVD，用kernel ridge回归对SVD进行后处理，对每部影片使用单独的线性模型，以及使用与正则化SVD类似但参数较少的方法。
所有预测器和它们之间选定的双向交互通过对holdout集的线性回归进行结合。

三、本文主要工作与内容

1、介绍了Netflix Prize数据集的组成。

2、本文的基本思路是：首先，随机抽取probe.txt的1.5%—15%作为测试集（保留集），训练集包含training.txt中的剩余评分。然后，对训练集上的所有算法进行训练（有些方法还偶尔观察测试集的错误，以决定何时停止优化权重）。最后，将每个算法对测试集的预测与对测试集的线性回归相结合。其中，在回归分析的基础上，选择预测因子之间的双向交互作用，可以得到较小的改善。

3、介绍了本文使用的六种预测器：Regularized SVD、Improved regularized SVD、K-means、Postprocessing SVD with KNN、Postprocessing SVD with kernel ridge regression、Linear model for each item，以及本文在这些基础上做出的改进Decreasing the number of parameters。

4、给出了实验结果

四、总结

本文提出了一个组合预测的框架，阐述了组合在一起为Netflix Prize数据集提供良好预测的方法。
提出的解决方案可能进一步改进：

应用交叉验证，如第2章所述的解决方案-对不同的训练集重复计算，并合并结果。
在集成中加入不同的有效预测器。很好的候选者是已经成功应用于协作过滤的方法：受限Boltzmann机器[8]和其他图形模型[7]。

论文笔记：Improving regularized singular value decomposition for collaborative filtering

一、基本信息

猜你喜欢