隐语义模型简介

LFM ( latent factor model )隐语义模型

该算法最早在文本挖掘领域被提出,用于找到文本的隐含语义。相关的名词有 LSI 、 pLSA 、 LDA 和 Topic Model 。

基础算法
隐语义模型是最近几年推荐系统领域最为热门的研究话题,它的核心思想是通过隐含特征(latent factor) 联系用户兴趣和物品。
首先通过一个例子来理解一下这个模型。图 2-16 展示了两个用户在豆瓣的读书列表。从他们的阅读列表可以看出,用户 A 的兴趣涉及侦探小说、科普图书以及一些计算机技术书,而用户 B 的兴趣比较集中在数学和机器学习方面。那么如何给 A 和 B 推荐图书呢?
 对于 UserCF ,首先需要找到和他们看了同样书的其他用户(兴趣相似的用户),然后给他们推荐那些用户喜欢的其他书。
 对于 ItemCF ,需要给他们推荐和他们已经看的书相似的书,比如作者 B 看了很多关于数据挖掘的书,可以给他推荐机器学习或者模式识别方面的书。
还有一种方法,可以对书和物品的兴趣进行分类。对于某个用户,首先得到他的兴趣分类,然后从分类中挑选他可能喜欢的物品。总结一下,这个基于兴趣分类的方法大概需要解决 3 个问题。
 如何给物品进行分类?
 如何确定用户对哪些类的物品感兴趣,以及感兴趣的程度?
 对于一个给定的类,选择哪些属于这个类的物品推荐给用户,以及如何确定这些物品在
一个类中的权重?
对于第一个问题的简单解决方案是找编辑给物品分类。以图书为例,即使有很系统的分类体系,编辑给出的分类仍然具有以下缺点:编辑的意见不能代表各种用户的意见、编辑很难控制分类的粒度、编辑很难给一个物品多个分类、编辑很难给出多维度的分类、编辑很难决定一个物品在某一个分类中的权重。
为了解决上面的问题,研究人员提出:为什么我们不从数据出发,自动地找到那些类,然后进行个性化推荐?于是,隐含语义分析技术( latent variable analysis )出现了。隐含语义分析技术因为采取基于用户行为统计的自动聚类,较好地解决了上面提出的 5 个问题。
 编辑的意见不能代表各种用户的意见,但隐含语义分析技术的分类来自对用户行为的统计,代表了用户对物品分类的看法。隐含语义分析技术和 ItemCF 在物品分类方面的思想类似,如果两个物品被很多用户同时喜欢,那么这两个物品就很有可能属于同一个类。
 编辑很难控制分类的粒度,但隐含语义分析技术允许我们指定最终有多少个分类,这个数字越大,分类的粒度就会越细,反之分类粒度就越粗。
 编辑很难给一个物品多个分类,但隐含语义分析技术会计算出物品属于每个类的权重,因此每个物品都不是硬性地被分到某一个类中。
 编辑很难给出多维度的分类,但隐含语义分析技术给出的每个分类都不是同一个维度的,它是基于用户的共同兴趣计算出来的,如果用户的共同兴趣是某一个维度,那么 LFM 给出的类也是相同的维度。
 编辑很难决定一个物品在某一个分类中的权重,但隐含语义分析技术可以通过统计用户行为决定物品在每个类中的权重,如果喜欢某个类的用户都会喜欢某个物品,那么这个物品在这个类中的权重就可能比较高。
隐含语义分析技术从诞生到今天产生了很多著名的模型和方法,其中和该技术相关且耳熟能详的名词有 pLSA 、 LDA 、隐含类别模型( latent class model )、隐含主题模型( latent topic model )、矩阵分解( matrix factorization )。这些技术和方法在本质上是相通的,其中很多方法都可以用于个性化推荐系统。

猜你喜欢

转载自blog.csdn.net/qq_39905917/article/details/87121231