《A fuzzy recommender system based on the integration of subjective preferences and objective info......

题目:一种基于主观偏好和客观信息集成的模糊推荐系统。

摘要:本研究提出了一种新的协同过滤框架,该框架将主观信息和客观信息结合起来,为积极的消费者提供建议。拟议的框架解决影响传统CF算法的稀疏性问题和冷启动问题。模糊语言模型是消费者呈现偏好的一种更自然的方式。在此基础上,提出了简单聚合(SA)算法和综合主客观用户视点(Asov)算法。实验结果表明所提出的方法产生了高质量的推荐。最后,计算结果证实了本文提出的算法优于传统方法。

1、介绍

CF系统使用与用户的偏好或行为相关的历史数据来预测新用户的行为。其想法是从以前的交易和其他类似客户的交易中收集信息。然而,传统的cf系统有一些共同的局限性,包括冷启动和稀疏问题这通常阻止该系统提供更好的质量建议。冷启动问题意味着cf系统无法找到类似的用户或用户首选项。当CF系统没有关于新项目的信息和新用户的个人信息时,就会发生这种情况。当可用的数据不足以识别相似的用户时,就会出现稀疏性问题。协作过滤不能为以前的情况产生有用的建议(冷启动和稀疏)。因为之前没有足够的评级或购买。目前的推荐系统还需要进一步改进,以解决这些严重的问题。

一般来说,推荐系统的用户偏好表示可以分为两类:清晰模型和模糊模型。前者用户表达对5分的偏好。例如,用户感觉到他/她非常喜欢某一产品,并且对该产品的评分较高,4分,但低于5分,但用户选择4分来表示他的偏好。然而,结果可能会受到个人得分行为差异的影响。如果用户c选择一种语言选项,例如“强烈喜欢”,它能很好地代表他/她对产品的看法。语言术语“强烈”可以通过模糊建模来充分处理。因此成员函数允许80%属于5级,20%属于4级。一种以人类感知为模型的模糊语言方法使定性问题的评价变得更容易。在此基础上,采用模糊理论方法对所提出的推荐系统进行了研究。

其中,主观信息包括征求领域专家和意见领袖的意见。客观信息阐明了主动用户的偏好以及类似的用户和过去的经验

2、定义

2.1 偏好函数

偏好函数如下:

16522000-230a01dab6692beb.png

其中,代表用户对项目的偏好,其中函数值可以表示为T元组。

2.2 相似指数

表示对于项目,用户和之间的距离。两个偏好函数值越接近,相似度越大。

,是一组未被评定的项目。核心思想是基于模糊聚合算子,该算子用于集成近邻的首选项,从而计算预测值。近邻与活动用户越相似,计算预测值的影响就越大。每个近邻的影响可以通过该近邻和主动用户之间的归一化相似度来确定。加权集W是一组邻域用户及其范数的权重。可定义为:,其中是和的归一化相似度,。

偏好矩阵是对于未被评定的项目的k个近邻的偏好函数矩阵。

2.3 预测

对于每个未被评定项目,用户偏好的预测可以表示如下:

扫描二维码关注公众号,回复: 6458096 查看本文章
16522000-3d3c5483087dbb55.png


2.4 示例

首先,偏好函数被确定为一个5元组。例如,如果用户有点喜欢第2个项目,我们就会设。相似度公式被定义成:

16522000-14f7ba36c2a71504.png

通过组合矩阵运算可以得到未评定项目的预测。最后,将预测用一个5元组模糊数的形式表示.采用重心法。将逆模糊预测如下:

16522000-671d50b1c50e50d5.png

3. 解决方案框架

16522000-1cdb7e92a8119e5e.png
总体流程图

本节详细介绍了所提出的框架,该框架在精神上类似于基于经典内存的CF方法。为了模拟用户对偏好的感知,该系统定义了九种语言。代表偏好程度的均方根。这组语言术语是S={“强烈推荐”,“强烈喜欢”,“喜欢”,”“有点喜欢”,“没有评论”,“有点不喜欢”,“不喜欢”,“强烈拒绝”“,”讨厌“}。每个用户都会给出他/她自己对每种语言术语的近似值的看法。上图示出了由数据库和三个模块组成的拟议框架的结构。主观性在数据库中收集客观的用户偏好信息。

由三个模块组成的拟议框架如下所示:

16522000-c483827a0612ba06.png

输入:一组项目:。一组用户:。主观信息用户:。活动用户:。主观用户偏好,客观用户偏好,新用户偏好,一组未评定项目 。

输出:top—n的推荐

方法:如果是一个新用户,就用“新用户模块”,如果用户是旧用户,但是未评定项目是新的,就用“新产品模块”,否则就用“通用模块”

3.1 模块介绍

新用户模块

如果用户是新用户,这意味着他的首选项最初不为系统所知。传统的推荐系统对新用户没有以前的首选项,因此不可能找到类似的用户。但是我们要做预测就通过拟议的系统将向新用户提供主题用户意见。根据主题用户的信息,建议的系统将决定该项目是否应该d推荐与否。建议的系统将向新用户推荐一些由主题用户推荐的项目。

新产品模块

供应商不断开发新产品,以满足竞争市场的要求。这些新项目应该添加到推荐系统中,以吸引消费者的眼球。然而,如果项目是新的,这意味着系统中没有存储用户偏好信息,尽管有关新产品的评论可以从意见领袖的博客或广告中获得。例如,著名的电影论坛,雅虎电影,经常从著名的电影评论家那里收集新电影的评论。系统还包含活动用户的先前首选项。建议的系统首先计算活动用户和主题用户之间的平均相似性以表明活动用户是否与该领域有相交。计算完相似度后,我们就可以预测出,再做推荐。

通用模块

由于使用模糊语言术语表示用户偏好是一种新的方法,所以它与两种提出的算法进行了比较。这两种算法类似于经典算法CF。本文首先提出了一种简单的聚合算法(SA),用于根据权重函数聚合主观和客观用户的观点。接下来,对简单算法中的一些低效点进行了识别。在对这些缺点进行改进的基础上,提出了综合主客观用户视点(ASOV)算法。

3.2 The simple aggregated algorithm简单聚合算法(SA)

16522000-d8b444832c9c9082.png

第一步:为活动用户创建可能的"邻居"。

对于每个用户,我们计算出和之间的相似程度,用于分级条目。然后计算活动用户与其他每个用户之间的平均相似度。在计算相似度时,还考虑了主观用户领域的偏好。

在该算法中,我们选择最好的k个近邻,形成一个邻域,基本上是一组平均相似度高于其他用户的用户。邻居可能是普通用户或主观用户。如果活动用户偏好与主观用户偏好有很大不同,则主观用户将不包括在邻居中。否则,主观用户将成为邻居的一员。

第二步:计算每个邻居的影响权重

一旦找到最佳k邻域,就可以根据邻域的归一化相似性确定权向量。不同邻居的影响是不平等的。同时,参考矩阵也是根据邻居的喜好来确定的。

第三步:生成预测和推荐过程

生成预测的过程可以通过语言聚合操作来实现。我们可以聚合邻居的偏好值来计算未评估值的预测值。

下面我们来看一个例子:

,,其中是主观信息用户,是一个新用户,是一个新项目,是活动用户。下表是示例数据:

16522000-0a2b95aafe99aca4.png

第一步:计算和对于普通项目的相似度。

16522000-4d63efbf319c0ecb.png

其他项目的计算结果如下:

16522000-1b6e785ba996c0d3.png

活动用户与之间的平均相似度由确定。

其他用户的平均相似度计算如下:

16522000-b698924640cf5c48.png

第二步:计算每个“邻居”的权重

因为我们只选择最好的三个邻居,主观用户不包括在邻居中。三个最近的邻居是{}

邻居的归一化相似性表示如下:

16522000-79c0f5f1d2d8d38d.png

因此,我们确定了一个权重向量:

第三步:预测偏好

根据表一,我们可以得到三个邻居的偏好矩阵如下:

16522000-c4de18d258e9873a.png

得到Y如下:

16522000-023b0a64490cd073.png

代入y的计算公式可得如下:

16522000-5f35f7576b8cd463.png

因为最后求出的结果大于4,所以认为用户是喜欢的。

3.3 Aggregated subjective and objective users’ viewpoint algorithm综合主客观用户观点算法 (ASOV)

在上一节中,我们发现在某些情况下主观用户可能被忽略。为了解决这个问题,开发了一种扩展算法-ASOV算法。直接上例子!!

例子2,求出的数据如下表

16522000-8289ff56bcf29029.png

上表包括了所有用户的平均相似度,并对平均相似度进行排序,最后一列是计算active用户与其他用户之差。

如果一个用户的差异相似度小于给定的阈值,则将选择它们分配给NeighborBuffer。假设阈值为0.12。选择五个用户{} 以存储在相邻缓冲器中。与有效用户U11相邻的相邻缓冲器中每个用户的平均相似度将被计算为在中。

我们从五个普通邻居中相似度最大的三个出来,分别是,把这三个用户和主观用户同时作为邻居,构造项目的偏好矩阵。求出Y,如下:

16522000-92ab753395927926.png

最后求出,所以我们认为在推荐名单中。

4、实验设计

4.1 数据集和评价指标

该框架要求用户根据模糊语言术语对自己的偏好进行评估。为了正确评估所提出的算法,必须建立一个网站,该网站将使用语言t直接收集用户的偏好数据。ERMS。数据集包括来自618个用户的用户偏好,用于100个电影,其中每个用户对100个电影进行评级。从互联网电影数据库(IM)的100片电影中选择电影DB),它是一个信誉良好的在线数据库,用于与电影有关的信息。

除了参与者对电影的评分外,我们还从雅虎的“评论家评论”中收集了更多的主观信息。雅虎电影为每部电影提供专家评分,是“纽约时报”、“芝加哥太阳报”、“好莱坞记者”和其他这类消息来源的专家的平均分数。

下表记录了语言术语与雅虎专家评分之间的映射关系:

16522000-547f23d81ebcf12f.png

数据集可以划分为丰富和稀疏数据集。富数据集中的每个用户在调查中评价了100个电影。在稀疏数据集中,每个用户至少评价20个和至多80个电影。稀疏数据集更接近真正的推荐系统。

对于每个数据集,我们随机选择100个用户作为活动用户。每个活动用户的电影评级数据将被分割成一个训练集和一个测试集。我们,我们认为这部电影已经被用户喜欢,并将此项目添加到推荐列表中。另一方面,如果用户选择四个语言术语中的一个(强烈推荐,强l)IKE(类似或有些类似),这表示此用户喜欢这部电影。通过查看在顶部的用户所喜欢的项目数量来衡量推荐的准确性top—N。

指标分别是平均准确率、MAE。MAE的计算方法如下:

16522000-9a1e95f67621e792.png

4.2 邻居大小的影响

16522000-ec02a8b62ccb7673.png
16522000-2c74b674d42f66c1.png
丰富数据集
16522000-9dc54a39959351b8.png
16522000-e60b65344d547de6.png
稀疏数据集

这些图中的结果的检查表明,当邻域的大小为15时,将满足最佳性能。所提出的算法、SA和ASOV的总体性能优于传统推荐方法。ASOV和CASOV两种方法的平均精度优于在稀疏和丰富的DAT上使用时的其他方法的平均精度。特别是,ASOV在精度方面优于CASOV。将结果与图中的结果进行比较。可以看出,将专家意见纳入建议系统是有益的。MAE测量预测评级与用户真实评级之间的平均绝对偏差。所有算法的MAE值都在0.142-0.16之间.选择较小的n或较大的n会导致错误的预测。实验结果表明,最佳邻域尺寸为15~20。与其它方法相比,所提出的SA算法对MAE的性能要好得多。


4.3 推荐大小的影响


16522000-df6d54986b8bd635.png

Top-N项建议是一组具有较高预测值的有序项。看到上图,第一幅图为丰富数据集,第二幅图为疏松数据集。所有结果均表明精度随着推荐尺寸的增加而减小。

5、结论

推荐系统被广泛地用于向潜在消费者推荐产品、服务和项目。也可以参考主观信息(专家意见),以帮助消费者制造产品UCT的选择。本文提出了一种既能综合主观信息又能综合客观信息的协作过滤框架。主观信息包括向领域专家和意见领袖征求的意见。客观信息根据相似的用户偏好或过去经验中的预测来澄清主动用户的偏好。基于该框架,开发了两种算法SA和ASOV。

转载于:https://www.jianshu.com/p/45e103a9d7f4

猜你喜欢

转载自blog.csdn.net/weixin_33698043/article/details/91139088