10分钟了解常用推荐算法

常用推荐算法分类

下面总结了常用的一些推荐算法的分类和概念,帮助你快速了解推荐系统。

一、基于人口统计学的推荐

1、根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户。
2.、用户信息标签化的过程又称为用户画像。用户画像就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌。

二、基于内容的推荐

1、根据推荐物品或内容的元数据,发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。
2、通过抽取物品内在或者外在的特征值,实现相似度计算。
3、对于物品特征提取——打标签。分为三类:专家标签(PGC)、用户自定义标签(UGC)、降维分析数据,提取隐语义标签(LFM)
4、对于文本信息特征提取——关键词。分词、语义处理和情感分析(NLP),潜在语义分析(LSA)
5、特征工程。

  • 特征工程一般包括特征清洗(采样、清洗异常样本),特征处理和特征选择
  • 一些数据类型的处理。

6、基于UGC的推荐。

  • 简单推荐
  • 基于TF-IDF的推荐(用户u对物品i兴趣计算)

三、基于协同过滤的推

1、协同过滤可以解决基于内容的一些局限

  • 物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐
  • CF基于用户之间对物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰
  • CF推荐不受内容限制,只要其他类似用户给出了对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)

2、基于近邻的协同过滤

  • 基于用户(User-CF)。基本原理:根据所有用户对物品的偏好,发现与当前用户口味和偏好相似的用户群,并推荐近邻所偏好的物品。
  • 基于物品(Item-CF)。基本原理:使用所有用户对物品的偏好,发现物品与物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户。
  • 使用场景。User-CF主要用于新闻网站,物品数量远大于用户数量,物品的更新程度比较快。Item-CF主要用于电商、电影、音乐网站,物品数量远远小于用户数量,物品的个数和相似度比较稳定。基于物品的机制比基于用户的实时性要好
  • 优点:不需要对物品或者用户进行严格的建模;不要求对物品特征的描述是机器可理解的,是领域无关的;这种方法计算出的推荐是开放的,可以供用他人的经验,很好的支持用户发现潜在的兴趣偏好。
  • 缺点:核心基于历史数据,对新物品和新用户都有“冷启动”的问题;推荐的效果依赖于用户历史偏好的数据的多少和准确性;在大部分 的实现中,用户历史偏好是用稀疏矩阵进行存储的,而稀疏矩阵上的计算有些明显的问题,包括可能少部分人的错误偏好会对推荐的准确度有很大的影响。

3、基于模型的协同过滤。

  • 原理:基于样本的用户偏好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分,计算推荐。
  • 隐语义模型(LFM)。训练模型时,可以基于标签内容来提取物品特征,也可以让模型取发掘物品的潜在特征,通过矩阵分解进行降维分析。
  • 矩阵因子分解。主要通过交替最小二乘法(ALS)和梯度下降算法。

4、基于近邻的推荐和基于模型的推荐的区别

  • 基于近邻的推荐是在预测时直接使用已有的用户偏好数据,通过近邻数据来预测对新物品的偏好(类似分类)
  • 基于模型的推荐是使用这些偏好数据来训练模型,找到内在规律,再用模型来做预测(类似回归)

猜你喜欢

转载自blog.csdn.net/wh672843916/article/details/109966318