贝叶斯定理的实际应用

贝叶斯定理,通过已知的概率计算未知的概率,比如,已知A的概率是P(A),B的概率是P(B),A发生时B发生的概率是P(B|A).那么就可以算出,B发生时A发生的概率P(A|B) = P(A)*P(B|A)/P(B).

人们在生活中经常无意识的用到贝叶斯定理,比如地域偏见,我们可以用贝叶斯定理推算一下为什么大多数人会认为东北人酒量大。已知:

P(A)=遇见酒量大的人的概率。 P(B) = 遇见东北人的概率。 P(B|A) = 遇见酒量大的人是东北人的概率

那么,遇见东北人的酒量大的概率P(A|B) = P(A)*P(B|A)/P(B) =遇见酒量大的人的概率X遇见酒量大的人是东北人的概率/遇见东北人的概率。

从这个公式P(A|B) = P(A)*P(B|A)/P(B)中可以看出,我们还可以学到如何降低对东北人酒量大的偏见:

1.减少遇见酒量大的人的概率,遇见酒量大的人是东北人的概率。这两点很难控制,碰到的人酒量怎么样我们无法控制,碰到的这个酒量大的人是哪里人我们也无法控制。

2.增加遇见东北人的概率。这点我们可以控制,比如去东北,或去东北人多的地方。了解了更多的东北人后,P(A|B)的概率下降,减少我们对东北人的酒量大的偏见。

其实,对于所有的偏见,不管地域偏见,还是阶层偏见,只要更多的去了解被偏见的对象,偏见都会减少。

除了在生活中,贝叶斯定理还经常被应用在机器学习中,比如对垃圾邮件分类。假如,现在我们有10万邮件,每个邮件都已经被标记好了是否是垃圾邮件。通过这些数据我们很容易计算出:

P(A)=垃圾邮件的概率,垃圾邮件/所有的邮件。 P(B) = 邮件中出现词M的概率,出现词M的邮件/所有的邮件。 P(B|A) = 垃圾邮件中出现词M概率,垃圾邮件中含有词M的邮件数量/所有的垃圾邮件。

那么,出现词M的邮件是垃圾邮件的概率P(A|B) = P(A)*P(B|A)/P(B) =邮件中出现词M的概率X垃圾邮件中出现词M概率/是垃圾邮件的概率。

对垃圾邮件学习的过程就是计算P(A|B)的过程。一般会有多个词或多个词的组合尝试,直到找到概率大于预期概率(比如。0.8,0.9等)的词M或一组词M1,M2等。然后就可以用得到的词计算,判断新的邮件是否是垃圾邮件。

当然,根据词M或一组词M1,M2判断一封邮件会不会是垃圾邮件,有可能会出现误判。含有M的词不一定是垃圾邮件,垃圾邮件也不一定含有词M。但是,多数情况下是不会错,这就跟我们的地域偏见一样。

实际上,贝叶斯定理更多的被应用在商业中,比如,一个30岁女性单身顾客在网上点开了一件商品M,那么可以根据贝叶斯定理判断,这个顾客购买商品M的可能性,从而调整价格。

根据历史数据可以计算出:

P(A)= 浏览商品M后购买的概率。 P(B) =30岁单身女性浏览商品M的概率 P(B|A) =浏览商品M后够买中30岁单身女性的概率。

那么,30岁女性单身浏览后购买的概率是P(A|B)= P(A)*P(B|A)/P(B) =浏览商品M后购买的概率X浏览商品M后够买中30岁单身女性的概率/30岁单身女性浏览商品M的概率。

如果发现30岁女性单身浏览后购买的概率较高,在这个顾客浏览商品是显示的价格高一些,如果发现概率较低,显示的价格低一些,增加购买的可能性。

贝叶斯定理还有一个好处是,计算出来了的概率是实时变化的。比如针对30岁女性单身客户的价格提高后,浏览商品M后够买的顾客中30岁单身女性的概率会降低,从公式中可以得知,30岁女性单身浏览后购买的概率就会减少,这是根据概率就应该调低价格。

如果价格降低后,浏览商品M后够买中30岁单身女性的概率会增加,30岁女性单身浏览后购买的概率就会增加,这是可以提高价格。

尽管这样使用贝叶斯定理对一些客户不公平,但是可以让商家以尽量高的价格销售更多的商品,据说很多网上商店都已经这么干了。

猜你喜欢

转载自my.oschina.net/u/587323/blog/1785681