ABtest即将A算法和B算法进行线上用户真实行为的对比，前提是线上已经有一个稳定运行的算法了，它所作用的流量部分我们称之为基准桶，一般会拿出线上流量的5%-10%进行ABtest，我们称之为测试桶，每个算法作用5%的流量，一般会有一个基准桶和2个测试桶在线上测试。当其中一个测试桶在线上运行一段时间，各项指标都显著优于基准桶的时候会进行算法切换，并且以一个阶梯递进的方式切换。

多样性

多样性反映了推荐内容的丰富程度，多样性的好坏影响用户的体验，总体来讲用户更希望看到多样性不错的推荐内容。无论是推荐商品、电影、新闻抑或是音乐，能尽可能的推荐用户喜欢的不同的种类的数据，对算法上线后的商业指标肯定能起到正向的作用。但是多样性也不是越多越好，要考虑用户实际的喜好偏向，对于相同权重的类目可以适当增加多样性，但是不同权重的自然以用户喜爱度为重，这个是算法需要找到的一个平衡。

更新率

用户的行为是不断变化的，一个好的算法的推荐内容必定会根据用户行为的变化而变化。这一指标更多的是应用于离线数据上，对于用户的历史行为会有一定的衰减，并且增加用户近期行为的权重，从而达到推荐结果的不断更新。更新率一定程度上是推荐结果“新颖度”的一种量化。

假设两个推荐集合，其中一个作为参照对象，推荐的总次数（或推荐对象总个数）为

，实验对象于参照对象有不同的次数（或推荐对象个数）累计为VN，则更新率公式描述如下：

推荐算法测试流程

推荐算法测试的流程要根据不同的情况采用不同的策略，一般分以下3种情况：

全新场景上线

对于一个全新的场景，一个算法要上线，必须要经过严谨的全流程测试，包括离线的数据质量测试（数据正确性、业务正确性）、实时数据时效性测试、工程端结果质量保障（推荐结果的正确性、推荐系统的性能测试）、算法的效果测试（多样性、更新率、基尼系数）。并且和传统的功能测试一样，测试也是在需求阶段就介入、然后经过日常、预发测试，最后再进行线上质量监控，整个测试流程如下：

算法迭代ABtest

算法迭代ABtest考虑到一方面算法的改动不会特别大，特别是对于主流程的正确性逻辑不会有什么变动；另一方面考虑到ABtest的线上流量比较小，通常是线上总流量的5%。为了保证算法能快速上线，测试会提供工程端的预发验收测试和性能压测的工具，供开发自测使用，预发验收和性能压测通过之后，算法即可上线ABtest，整个测试流程如下。

测试桶切换基准桶

一般算法在ABtest后都会下线，进行新一轮的优化然后再ABtest，周而复始。但是有一些优秀的算法经过优化之后，ABtest的各项商业指标明显优于线上基准桶的算法，就会切换线上基准桶。此时，我们要当做一个全新的场景全新的算法上线来看待，走全新场景上线的测试流程，如下：

总结

对于推荐场景来说，一旦哪个场景上线之后，它的需求基本是固定的，剩下的就是算法不断迭代优化的过程。因此，对于测试来说，重点要做的是对于新场景的需求分析，并将测试过程中的测试点沉淀下来，用脚本化、自动化、甚至是平台化的手段去实现。这样，对于已上线的场景，算法开发迭代算法完全可以自助验证，达到效率的指数级提升。

推荐算法的测试方法

推荐算法的种类

基于内容的推荐

协同过滤推荐

基于关联规则的推荐

推荐算法测试方法

离线数据质量测试

数据正确性

业务正确性

实时数据的时效性

工程端结果质量

推荐结果的正确性

推荐系统的性能测试

算法效果测试

ABtest

多样性

更新率

推荐算法测试流程

全新场景上线

算法迭代ABtest

测试桶切换基准桶

总结

猜你喜欢