协同过滤相似度计算

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/love_data_scientist/article/details/82118275

   (1)传统的杰卡德相似度计算公式如下,

 其中A,B可以为不同用户的购物品类,

        当用户量特别大的时候,导致计算复杂度比较高,因为直接进行了笛卡尔积运算,这时候可能没有办法进行运算。优化方法如下:

     扫描整个品类,统计用户A和B共同出现的次数num_A_B,统计用户A和B出现的总次数num_A,num_B,A和B的并集为num_A+num_B-num_A_B

即:可以用两个用户物品长度的倒数相乘,再乘以相同物品的个数。程序执行的时候,可以循环品类,对应每一个品类,每个的参数为用户物品的倒数,两个用户的乘积即为在该品类下的值,扫描整个品类,把相应的值相加即为近似的,可以比较不同用户之间的相似度。

  (2)使用基于内容推荐算法的思想:得到用户A的向量表示(出现某种物品,则在相应的位置为1,否则为0),得到用户B的向量表示,使用余弦相似度计算公式计算。

这两种方式都可以使用map-reduce思想进行运算,加速计算过程

猜你喜欢

转载自blog.csdn.net/love_data_scientist/article/details/82118275