协同过滤 Collaborative Filtering - 代码天地

协同过滤 Collaborative Filtering

其他 2019-09-22 13:44:29 阅读次数: 0

协同过滤 collaborative filtering

人以类聚，物以群分

相似度

1. Jaccard 相似度

定义为两个集合的交并比：

Jaccard 距离，定义为 1 - J(A, B)，衡量两个集合的区分度：

为什么 Jaccard 不适合协同过滤？—— 只考虑用户有没有看过，没考虑评分大小

2. 余弦相似度

根据两个向量夹角的余弦值来衡量相似度：

为什么余弦相似度不适合协同过滤？—— 不同用户各自评分总和不一样，导致评分占总比不一样，可能计算出和事实相反的结果。

3. Pearson 相似度

解决余弦相似度中的相似度差异问题，又称中心余弦算法。先中心化，再算余弦相似度，这样正值表示正相关，负值表示负相关。

基于用户的协同过滤

通过用户对物品的喜爱程度进行度量和打分。根据不同用户对相同商品或内容的态度进行商品推荐。

举例说明，每个行向量表示某个用户对所有电影的评分

先把数据中心化

然后计算用户 A 和其他用户的 Pearson 相关系数：

可以发现用户 A 和用户 B 喜好接近，因此可以将 B 喜欢但 A 没看过的密室推荐给 A，同时也可以将 A 喜欢但 B 没看过的火焰杯推荐给 B。

用户法存在的问题：

　　1. 数据稀疏性。物品太多，不同用户之间买的物品重叠性较低，导致无法找到一个偏好相似的用户

　　2. 算法扩展性。最近邻算法的计算量随着用户和物品数量的增加而增加，不适合数据量大的情况使用。

基于物品的协同过滤

通过计算不同用户对于不同物品的评分，获得物品间的关系。基于物品间的关系对用户进行相似物品的推荐。

举例说明，每一个行向量表示某个物品被各个用户的评分，先中心化

如何预测用户 E 对哈利波特的喜好程度？计算哈利波特和其他电影之间的 Pearson 相关系数

选择相关性较大的其他电影，拿出用户 E 对这些电影的评分，利用 Pearson 相关系数做 weighted sum：

从原理上看，基于用户或基于物品都是可以的，但实践中以物品为基础效果更好，且需要很少的数据就可以进行预测，用户法需要大量数据。

SVD 协同过滤

奇异值矩阵的特征值按照从大到小排列且迅速减小，可以把大矩阵用三个小矩阵来近似描述，实现降维和去噪，应用于协同过滤中可以减少计算量。

用 K 维 SVD 分解做协同过滤，实际上就是找一组 latent variables，U 和 V 分别描述了物品与隐变量、用户与隐变量之间的关系。然后就可以都在 latent space 中表示。

举例说明，4 个用户对 6 部电影的评分情况

做二维 SVD 分解：

在 latent space 中表示用户和电影，发现电影之间、用户之间、电影和用户之间，都可以衡量中心余弦相似度。

如果出现一个新用户，如何给他推荐他没有看过的电影？

把新用户投影到 latent space

找到和新用户相似度高的用户，把相似用户评分高而新用户没看过的电影，按相似用户的评分高低顺序先后推荐给新用户即可。

猜你喜欢

转载自www.cnblogs.com/chaojunwang-ml/p/11567088.html

协同过滤(Collaborative Filtering)

协同过滤 Collaborative Filtering

协同过滤算法(collaborative filtering)

(转)One Class Collaborative Filtering 单类协同过滤

改进的Apriori算法和协同过滤（Collaborative Filtering）算法

【Spark MLlib】（六）协同过滤 (Collaborative Filtering) 算法分析

推荐算法-协同过滤（Collaborative Filtering）-相似度

推荐系统之基于用户行为数据的协同过滤(Collaborative Filtering)

Collaborative Filtering

从item-base到svd再到rbm，多种Collaborative Filtering(协同过滤算法)从原理到实现

基于物品到向量的词嵌入神经网络协同过滤推荐系统算法研究_Item2vec: Neural Item Embedding for Collaborative Filtering

Collaborative Filtering算法

Disentangled Graph Collaborative Filtering

推荐系统——Neural collaborative filtering

Neural Collaborative Filtering【论文记录】

Content based and collaborative filtering based recommendation and personalizati

【读论文】Attentive Collaborative Filtering【待完成】

Google ML Crash Course => Embeddings, Collaborative Filtering

【论文阅读】Collaborative Filtering for Implicit Feedback Datasets

《AutoRec: Autoencoders Meet Collaborative Filtering》理解

联邦学习论文阅读：Federated collaborative filtering

论文笔记：Variational Autoencoders for Collaborative Filtering

论文笔记：Neural Collaborative Filtering

论文笔记：Social Collaborative Filtering Ensemble

推荐系统----（一）Neural Collaborative Filtering

推荐系统----Dual Channel Hypergraph Collaborative Filtering

Neural Graph Collaborative Filtering学习笔记

过滤 (Filtering)

推荐系统——A Hybrid Collaborative Filtering Model with Deep Structure for Recommender Systems

阅读笔记：Item-based Collaborative Filtering Recommendation Algorithms

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)