无敌的Log-Likelihood Ratio(1)——LLR的计算方式


   T e d    D u n n i n g Ted\; Dunning A c c u r a t e    M e t h o d s    f o r    t h e    S t a t i s t i c s    o f    S u r p r i s e    a n d    C o i n c i d e n c e 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 中介绍了 L o g L i k e h o o d    R a t i o Log-Likehood\; Ratio 在文本计算中的基本使用。 L L R LLR 因为实现简单、有效并且具有大规模数据上的可扩展性,能够被很好的使用到工业系统中。因此基于 L L R LLR 的相似度度量广泛应用在推荐系统等多种应用当中。
  在这篇Blog中,我们忽略 A c c u r a t e    M e t h o d s    f o r    t h e    S t a t i s t i c s    o f    S u r p r i s e    a n d    C o i n c i d e n c e 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 中对 L L R LLR 过多的冗余描述,主要集中的去关注 L L R LLR 的计算方式和现有的一些简单有效的代码实现。
  本篇博客的组织方式如下。在章节1中,以最简单的方式讨论了 L o g L i k e l i h o o d    R a t i o Log-Likelihood\; Ratio 相似度的计算方式,在章节2中讨论了 L o g L i k e l i h o o d    R a t i o Log-Likelihood\; Ratio 的具体的代码实现,以及一些可以现用的相似度计算工具。

1. LLR的计算方式

  在计算两个事件(例如推荐系统中的点击行为)的 L L R LLR 值来做相似度衡量的时候,我们通过两个事件的计数来计算事件之间的相似度。接下来我们以推荐系统中物品相似度的计算为例来介绍 L L R LLR 的计算方式。
  有两个物品分别为物品 i i 和物品 j j 。对应事件计数的简单形式化描述如下:
k 11 k_{11} :表示同时浏览了物品 i i 和物品 j j 的用户。
k 12 k_{12} :表示浏览了物品 i i ,但是没有浏览物品 j j 的用户。
k 21 k_{21} :表示浏览了物品 j j ,但是没有浏览物品 i i 的用户。
k 22 k_{22} :表示没有浏览物品 i i ,并且没有浏览物品 j j 的用户。
根据上述,我们可以得到如下的一个表格:

事件 浏览 I t e m    i Item\;i 没有浏览 I t e m    i Item\;i
浏览 I t e m    j Item\; j k 11 k_{11} k 21 k_{21}
没有浏览 I t e m    j Item\;j k 12 k_{12} k 22 k_{22}

I t e m    i Item\; i I t e m    j Item\;j L L R LLR 计算公式如下:
S = 2 × ( H m H c H r ) S=2\times (H_m - H_c - H_r)
其中:
H m H_m 表示上述矩阵的矩阵熵,总体的计算公式如下:
H m = ( k 11 N    l o g ( k 11 N ) + k 12 N    l o g ( k 12 N ) + k 21 N    l o g ( k 21 N ) + k 22 N    l o g ( k 22 N ) ) H_m = - (\frac{k_{11}}{N}\;log(\frac{k_{11}}{N}) + \frac{k_{12}}{N}\;log(\frac{k_{12}}{N}) + \frac{k_{21}}{N}\;log(\frac{k_{21}}{N}) + \frac{k_{22}}{N}\;log(\frac{k_{22}}{N}))
H r H_r 表示每行相加计算得到的信息熵,相关的具体计算公式如下:
H r = ( k 11 + k 12 N    l o g ( k 11 + k 12 N ) + k 21 + k 22 N l o g ( k 21 + k 22 N ) ) H_r = -(\frac{k_{11} + k_{12}}{N}\; log(\frac{k_{11}+k_{12}}{N}) +\frac{k_{21} + k_{22}}{N}log(\frac{k_{21} + k_{22}}{N}))
H c H_c 表示矩阵的每一列相加计算得到的信息熵,相关的具体计算公式如下:
H c = ( k 11 + k 21 N    l o g ( k 11 + k 21 N ) + k 21 + k 22 N l o g ( k 21 + k 22 N ) ) H_c=-(\frac{k_{11} + k_{21}}{N}\; log(\frac{k_{11}+k_{21}}{N}) +\frac{k_{21} + k_{22}}{N}log(\frac{k_{21} + k_{22}}{N}))

其中 N = k 11 + k 12 + k 21 + k 22 N=k_{11} + k_{12} + k_{21} + k_{22}

2. LLR的代码实现

  在 M a h o u t Mahout m a t h math 库中定义了 L o g L i k e l i h o o d LogLikelihood 类,实现了 L L R LLR 的计算,其中具体的计算代码在下面给出。

  • r o w E n t r o p y rowEntropy 的计算方式如下
private static double xLogX(long x) {
    return x == 0 ? 0.0 : x * Math.log(x);
  }
private static double entropy(long a, long b) {
    return xLogX(a + b) - xLogX(a) - xLogX(b);
  }

其中 a = k 11 + k 12 a=k_{11} + k_{12} 并且 b = k 21 + k 22 b=k_{21} + k_{22} ,综合得到
r o w E n t r o p y = ( N × l o g    ( N ) ( k 11 + k 12 ) × l o g    ( k 11 + k 12 ) ( k 21 + k 22 ) × l o g    ( k 21 + k 22 ) )    = ( ( k 11 + k 12 ) × l o g    ( N ) ( k 11 + k 12 ) × l o g    ( k 11 + k 12 ) + ( k 21 + k 22 ) × l o g    ( N ) ( k 21 + k 22 ) × l o g    ( k 21 + k 22 ) )    = ( ( k 11 + k 12 ) × ( l o g ( N ) l o g ( k 11 + k 12 ) ) + ( k 21 + k 22 ) × ( l o g ( N ) l o g ( k 21 + k 22 ) ) )    = ( k 11 + k 12 ) × ( l o g    k 11 + k 12 N ) + ( k 21 + k 22 ) × ( l o g    k 21 + k 22 N ) = H r × N rowEntropy = (N \times log\;(N) - (k_{11} + k_{12}) \times log\;(k_{11} + k_{12}) -(k_{21} + k_{22} )\times log\;(k_{21} + k_{22})) \\ \;\\ = -((k_{11}+k_{12})\times log\;(N)-(k_{11} + k_{12}) \times log\;(k_{11} + k_{12}) + (k_{21} + k_{22}) \times log\;(N) - (k_{21} + k_{22} )\times log\;(k_{21} + k_{22})) \\ \;\\ =-((k_{11} + k_{12}) \times(log(N)-log(k_{11}+k_{12})) + (k_{21} + k_{22}) \times(log(N)-log(k_{21}+k_{22})))\\ \;\\ =(k_{11} +k_{12}) \times(log\;\frac{k_{11} + k_{12}}{N}) + (k_{21} + k_{22}) \times(log\;\frac{k_{21} + k_{22}}{N}) = - H_r \times N



  • 同样的 c o l E n t r o p y colEntropy 的计算方式如下:
    c o l E n t r o p y = ( k 11 + k 21 ) × ( l o g    k 11 + k 21 N ) + ( k 12 + k 22 ) × ( l o g    k 12 + k 22 N ) = H c × N colEntropy = (k_{11} +k_{21}) \times(log\;\frac{k_{11} + k_{21}}{N}) + (k_{12} + k_{22}) \times(log\;\frac{k_{12} + k_{22}}{N}) = -H_c \times N


  • m a t r i x E n t r o p y matrixEntropy 的计算方式
private static double entropy(long a, long b, long c, long d) {
    return xLogX(a + b + c + d) - xLogX(a) - xLogX(b) - xLogX(c) - xLogX(d);
  }

m a t r i x E n t r o p y = N × l o g    ( N ) k 11    l o g ( k 11 ) k 12    l o g ( k 12 ) k 21    l o g    ( k 21 ) k 22    l o g ( k 22 )    = ( k 11 × l o g    ( k 11 N ) + k 12 × l o g    ( k 12 N ) + k 21 × l o g    ( k 21 N ) ) + k 21 × l o g    ( k 21 N ) ) × N matrixEntropy= N\times log\;(N) - k_{11}\;log(k_{11}) -k_{12}\;log(k_{12}) - k_{21}\;log\;(k_{21}) - k_{22}\;log(k_{22}) \\ \;\\ = - (k_{11}\times log\;(\frac{k_{11}}{N})+k_{12}\times log\;(\frac{k_{12}}{N}) + k_{21}\times log\;(\frac{k_{21}}{N})) + k_{21}\times log\;(\frac{k_{21}}{N})) \times N



  • 最终相似度 S S 的计算结果
public static double logLikelihoodRatio(long k11, long k12, long k21, long k22) {
    Preconditions.checkArgument(k11 >= 0 && k12 >= 0 && k21 >= 0 && k22 >= 0);
    // note that we have counts here, not probabilities, and that the entropy is not normalized.
    double rowEntropy = entropy(k11 + k12, k21 + k22);
    double columnEntropy = entropy(k11 + k21, k12 + k22);
    double matrixEntropy = entropy(k11, k12, k21, k22);
    if (rowEntropy + columnEntropy < matrixEntropy) {
      // round off error
      return 0.0;
    }
    return 2.0 * (rowEntropy + columnEntropy - matrixEntropy);
  }

S = 2 × ( r o w E n t r o p y + c o l E n t r o p y m a t r i x E n t r o p y ) = 2 × ( H r N H c N + H m N ) = 2 N ( H m H r H c ) S= 2 \times(rowEntropy + colEntropy - matrixEntropy) = 2 \times (- \frac{H_r}{N} - \frac{H_c}{N} + \frac{H_m}{N}) = \frac{2}{N}(H_m - H_r - H_c)

在代码实现里面相似度的计算过程中把 N N 约掉了,所以在 m a h o u t mahout 计算当中实际计算得到的值为
S = 2 N ( H m H r H c ) S=\frac{2}{N}(H_m - H_r - H_c)

3 相关疑问

问题 1: 在代码的计算过程中,约掉分母 N N 对整个结果有影响嘛?
问题 2: 在有些博客资料中称 H r H_r 为行熵,称 H c H_c 为列熵,并且计算公式不如下:
博客相关资料截图
这种方式和我上面描述的计算方式等价嘛?那种更准确?

欢迎大家留言讨论,如果有问题或者建议的地方希望大家能够提出再核对问题后我会在第一时间进行修正。

4 参考资料

【1】LLR (Log-Likelihood Ratio) used for recommendations
【2】Accurate Methods for the Statistics of Surprise and Coincidence
【3】Building a Correlated Cross-Occurrence (CCO) Recommenders with the Mahout CLI
【4】github · Mathout LogLikelihood Similarity
【5】Surprise and Coincidence
【6】loglikelihood ratio 相似度

发布了22 篇原创文章 · 获赞 7 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/redhatforyou/article/details/104052951