《Accurate Intelligible Models with Pairwise Interactions》笔记

这篇文章的贡献是一种拟合GAM时处理pairwise interaction的技术,也就是拟合以下这样的模型:

 

 做法我理解为两个关键步骤两步,第一步就是根据数据找出top K个pairwise interactions。

 为了较快的训练速度,本文简化了对pairwise interactions的处理,将它处理为:

 

即对、分别二值化,这样对的feature pair,就只有4种取值情况,问题就简化成了怎么做这种二值化的切分,和的4种取值情况对label的影响是多少(也就是4种情况分别施加多少权重)。

 

 

这种条件下这个问题就变得很简单,可以横着d种切法,竖着d种切法,然后就会发现d*d种切法的4种情况的权重是可以用动态规划快速算出来的。

下图就是已知一种切法后怎么去算4种情况的weight

 

这里用了横纵方向分别用了两个一维的前缀和,这样就可以通过前缀和和

像图示的那样计算四个权重。

有了这个方法后,就可以用动态规划算出种切法的的值。

伪代码图如下:

 

过程特别简单。有了所有的pair切分方案后,就要计算它们的优劣选出最好的切法。

评价指标就是,然后就发现按文中的设计方案,每一个切法的计算都是的。

然后就发现按文中的设计方案

这里的推导还是有点意思的。然后必出来的最好的切法就代表了这对pairwise interaction。所以这个环节总结一下就是暴力所有的pairs,再对每个pair得到其最好的切法和相应的,然后就比较得出效果最好的top K个pairs。

    有了top K个pairs,就可以拿来对剩下的(这里指的是先单变量backfitting拟合一个模型出来剩下的)再拟合一个model,

猜你喜欢

转载自www.cnblogs.com/traderforce/p/12497949.html