显性反馈和隐性反馈

推荐系统的用户行为分为显性反馈和隐性反馈 ,显性反馈数据集可以明确区分正负样本(如评分数据);隐性反馈数据集只有正样本(用户喜欢什么),没有负样本(用户不喜欢什么)。

隐性反馈数据集上生成负样本的方法:

(1)对于一个用户,用他所有没有过行为的物品作为负样本。

(2)对于一个用户,从他没有过行为的物品中均匀采样出一些物品作为负样本。

(3)对于一个用户,从他没有过行为的物品中采样出一些物品作为负样本,但采样时,保证
每个用户的正负样本数目相当。

(4)对于一个用户,从他没有过行为的物品中采样出一些物品作为负样本,但采样时,偏重
采样不热门的物品。
对于第一种方法,它的明显缺点是负样本太多,正负样本数目相差悬殊,因而计算复杂度很
高,最终结果的精度也很差。对于另外3种方法, Rong Pan在文章中表示第三种好于第二种,而
第二种好于第四种。

对负样本采样时应该遵循以下原则

(1)对每个用户,要保证正负样本的平衡(数目相似)。

(2)对每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品。

参考资料

《推荐系统实践》项亮

猜你喜欢

转载自www.cnblogs.com/xumaomao/p/11205665.html
今日推荐