Taoxi에서 2년 반 동안의 A/B 실험 경험, '과학적 실험'에 대한 나의 이해에 대해 이야기해 보겠습니다.





2년 반 동안 타오바오와 티몰에서 A/B 실험 경험을 쌓으면서, 타오테 전자상거래의 A/B 실험 역량 구축라이브 방송 콘텐츠 전자상거래의 A/B 실험 역량 구축을 경험 했습니다. 0 대 1 입니다 . 전자는 일반적인 실험 능력 구축 에 더 많은 관심을 기울이는 반면, 후자는 실험 과학의 구현 에 더 많은 관심을 기울입니다 . 변화를 수용하는 순간, 한 분야에 집중할 수 있다는 것은 행운이기 때문에, 제가 이해하는 대로 '과학적 실험'을 어떻게 할 수 있는지 요약해서 이야기해보겠습니다.



배경

Taobao Live 1년 동안 저는 처음으로 Kunlun Mirror(Taote를 기반으로 구축된 실험 플랫폼)를 다시 스킨하고 엔지니어링 아키텍처 최적화, 프런트엔드 최적화, 리소스 배포, 실험적인 데이터 웨어하우스 모델링, 비즈니스 역량 정렬 등 어떤 것도 enfp 풀스택 엔지니어가 생방송의 비즈니스 실험 요구 사항과 알고리즘 실험 요구 사항을 대부분 수행하는 것을 막을 수 없습니다. 다음에서는 수많은 비즈니스 사례와 결합하여 실험 과학을 수행하는 방법에 대해 이야기하겠습니다 ~


비즈니스 목표의 과학: 성장 목표는 장기적이고 건전하며 정량화 가능해야 합니다.


▐사례 1: "스카이소 문제" - 연속적인 작동 실험  



  • 사례 분석


실험 결론 에서 볼 수 있듯이 실험은 1인당 GMV를 크게 증가시키는 반면 사용자 경험을 크게 줄 였습니다 . 1인당 시청 시간을 늘리는 등 1인당 거래 금액 등을 줄이지는 않지만, 서로 다른 소규모 팀에 헤징 지표(조직 구조의 일반적인 문제)가 할당되는 경우 대규모 팀은 합리적으로 목표를 설정하고 특별한 주의를 기울여야 합니다. 헤징 지표에 적용됩니다.


  • 현재 솔루션

  1. 대규모 팀에서는 일반적으로 비즈니스 리더, 재무 및 BI의 결정이 필요한 핵심 지표와 울타리 지표를 유지 관리합니다.

  1. 코어 지표와 펜스 지표의 렌더링 추세를 정규화하고 모든 노드의 실험적 푸시로 인한 직관적인 변화를 관찰합니다.


  1. 장기 리버스 버킷과 결합하여 실험의 증분 가치를 검증합니다. (그림에는 표시되지 않음)

  • 생각하기: 실험 관리의 관점에서 비즈니스 OKR 지표는 어떻게 결정되어야 합니까?

일반적으로 기업에서 OKR을 공식화할 때 목표는 GMV + 10%와 같은 전체 지표를 개선하는 것입니다. 따라서 GMV + 3%와 같은 실험 보고서는 목표를 밀접하게 따르는 경우가 많습니다. UV의 전월 감소는 GMV의 감소로 이어져 "실험 보고서는 좋지만 시장은 상승하지 않는다"는 착각을 불러일으켰습니다. 이러한 유형의 문제에는 일반적으로 두 가지 아이디어가 있습니다.
  1. OKR은 실험적으로 입증할 수 있는 지표(예: 1인당 GMV)로 설정되어 있으며, 이 지표는 실험의 가치를 정량적으로 평가하는 데 사용됩니다.
  2. 엄격한 역방향 버킷 관리 및 제어 프로세스를 수행하고 역방향 버킷을 통해 GMV 기여도를 추정합니다.

실험적 디자인 과학

기존 실험에서는 사용자 규모가 크기 때문에 무작위로 선택된 표본 그룹이 동질적이라고 가정하는 경우가 많았습니다. 동시에 선반 전자 상거래의 사용자 네트워크는 상대적으로 단순하며(공유 실험 제외) 표본 간의 독립성은 고려되지 않습니다 . 그러나 작은 표본 크기를 사용한 실험은 동질성 문제에 직면하는 경우가 많으며 실험 단위의 행동 유출도 표본 간의 독립성 문제에 직면합니다.

단순화된 실험 흐름도


▐사례 2: "균질성 문제", 작은 표본 크기의 실험이 어렵습니다: 새로운 앵커 실험  


  • 사례 분석


비즈니스 가설: 우리는 일반적으로 Taobao에서 새로운 앵커의 경험을 향상시키기 위해 많은 전략적 실험을 수행합니다. 특정 전략을 예로 들어 이 전략이 새로운 앵커의 열정을 효과적으로 향상시킬 수 있다고 가정합니다.


실제 상황: 신규 앵커는 기업 심사 후 테스트할 수 있는 샘플 수가 적고, 앵커 간 개인차가 크기 때문에 무작위로 선정된 두 샘플 그룹 간의 지표 변동이 커서 실험을 수행할 수 없습니다. .


  • 현재 솔루션 아이디어


  1. 분산 감소: 실험에서 검증할 지표 주변에서 이상값을 적당량 제거합니다. (참고: 너무 많이 제거하면 실험 효과가 작아지고, 너무 적게 제거하면 변동이 과도해집니다. 경험적으로는 최소한 99번째 백분위수) 여전히 편차가 너무 큰 경우에는 크기가 커서 장기 지표로 적절하게 처리 할 수 있습니다 . 이 경우 앵커의 일일 거래 금액 차이가 너무 크기 때문에 3개를 선택했습니다. -일 평균 거래금액입니다. 그러나 이로 인해 실험 데이터 복구 주기가 길어지고 실험 해석성이 나빠질 수 있으므로 구경 처리 전에 실험 목적을 명확히 할 필요가 있습니다.
  2. 지표 및 차원 밸런싱 : 오프라인 처리를 통해 지표 데이터 분포와 차원 분포가 동일한 여러 샘플 그룹을 얻습니다.
    1. 표본 크기가 그다지 작지 않고 그룹 내 차이가 너무 명확하지 않은 경우 간단한 그룹 균형 조정을 시도해 볼 수 있습니다. 즉, 각 그룹의 동일한 비율의 앵커가 실험에 참여하게 됩니다.
    2. 표본 크기가 너무 작거나 그룹 내 차이가 큰 경우 모델을 사용하여 지표와 차원의 균형을 맞출 수 있습니다. 이 경우 AA 테스트를 안정적으로 통과할 수 있는 공변량 적응형 무작위화 방법을 사용합니다.
  1. AA 테스트: 그룹화 결과가 동일하고 실험 결론이 유용한지 확인합니다. 이 섹션에서는 아래에서 자세히 설명합니다.


  • 생각하다


소규모 표본 크기의 실험은 더 넓은 시장에 미치는 영향이 적고 실행이 어렵기 때문에 쉽게 무시되는 경우가 많습니다. 그러나 정교한 작업을 통해 이러한 실험은 점차 심각하게 받아들여지기 시작했습니다. 실제 제품 가격 인하 사례에서 500개의 제품을 1,000번 무작위로 추출한 결과, 표본 크기가 작다는 점에도 주목할 필요가 있습니다. 10,000개의 제품을 무작위로 샘플링하도록 조정하면 평균은 명백한 정규 분포를 나타내기 시작하므로 이 맥락에서 실험에서 샘플링할 수 있는 샘플 수는 10,000개 이상이어야 합니다.


▐사례 3 & 4: "독립성 문제", 팬 간의 커뮤니티 관계로 인한 사용자 행동의 과잉, 앵커 간의 트래픽 경쟁 관계로 인한 앵커 행동의 과잉 이러한 실험은 어떻게 수행됩니까?  


  • 사례 분석

비즈니스 가설 1: 우리는 다양한 지분 표현으로 인한 거래 증가를 탐색하기를 희망합니다. 실험에서 그룹 AB의 사용자는 다양한 지분 표현을 확인합니다.
실제 상황 : 그룹 B의 사용자가 권리와 이익을 본 후 이를 그룹 A의 사용자와 공유합니다. 그룹 A의 사용자가 들어와서 다른 권리 표현을 보게 되어 일관되지 않은 사용자 경험이 발생합니다 .
비즈니스 가설 2: 트래픽 제어 전략을 사용하여 특정 규칙을 충족하는 앵커로 트래픽을 기울여 거래 금액을 경험하기를 희망합니다.
실제 상황: 규칙을 충족한 실험군의 앵커는 더 많은 트래픽을 얻지만, 전체 트래픽 풀이 변하지 않는다는 전제에서 실험군 앵커의 새로운 트래픽은 다른 앵커의 트래픽 감소로 이어집니다. 실험 집단의 행동 과잉을 초래하여 실험의 독립성 가정이 성립하지 않습니다.

  • 현재 솔루션

시간을 여러 시간 조각으로 나누고 각 시간 조각을 독립적인 실험 단위로 사용함으로써 동일한 시간 조각에 있는 모든 사용자가 동일한 전략을 경험하도록 보장할 수 있습니다. 이 디자인은 사용자 경험의 불일치 문제를 효과적으로 방지합니다. 마찬가지로 각 시간 조각에서 모든 트래픽은 정책에 균일하게 할당됩니다. 이러한 배열은 트래픽 경쟁과 사용자 경험의 불일치를 근본적으로 방지하여 실험의 공정성과 효율성을 보장합니다. 시간 분할 순환 실험을 통해 우리는 특정 순간에 모든 사용자에게 통합된 환경을 제공하여 일관성을 유지하고 실험 중에 잠재적인 중단을 방지할 수 있습니다.



결점:

  1. 由于其实验单元为时间,所以可统计样本量较少,导致实验效果评估周期长,同时日期切片容易受热点事件影响,导致实验结论偏差。

  2. 由于需保证实验单元的独立性,且日期天然存在延续性,因此要减少日期之间的影响,例如1号的策略会影响到2号凌晨的主播(因为主播的场次容易跨天),所以日期切割需要结合业务特点,灵活选择时间切片大小和切割点。


实验数据可用


  案例五:「AA检验不通过」在一次下单返红包的实验中,在分析实验数据时才发现用户分布不均匀,导致实验结论严重错误,甚至得出相反结论,浪费实验期间投入的预算等资源。


  • 案例分析

这个案例中,实验假设没有问题,问题出在分流结果严重不同质,导致的实验数据不可用,充分实验AA检验的意义:不仅 保证实验数据可用 ,更重要的是 避免因果关系误判,沉淀错误业务认知,误导业务发展方向。

  • 当前解法

采用AA日志回溯检验,提前验证数据可用:实验平台根据进桶用户的过去7天数据,判断两组用户是否同质。结合案例,采用日志回溯可在分流数据出来后,通过回溯其过去7天数据,发现两组用户实际不同质,实验应立刻停止;
建议给实验分级管控,高成本实验必须空跑一天及以上,通过AA检验结果后再上策略。这并不影响实验啥上线效率,业务放提前一天以上创建好实验即可。 新用户类的实验不适用于日志回溯。

AA日志回溯检验和AA空桶检验同属于AA检,AA检验主要包括三个方面:

1、分布均匀性检验

在这次案例中,实验组和对照组在购买力分层上严重不均,从而导致其核心指标也显著不均,无法获得实验效果。注意:

注意:分布不均匀并不一定表示实验数据不可用,本次案例是由于分布不均匀引起了核心指标不同质,导致了实验效果无法验证;


2、方差齐性检验 & 统计检验

在这次案例中,购买力的分布不均已经引起了指标不同质。从下图可以直观理解不同质现象,假设实验组和对照组本身同质,那么他们的数据分布应该都在绿色区域中,随后因为实验组施加了不同策略,导致实验组数据分布从绿色区域移动到了黄色区域。如果实验组未上策略就已经移动到了黄色区域,那么我们是无法证明策略对实验的影响。

本案例中,实验组通过日志回缩检验发现自身已经处于黄色区域,这是典型的不同质实验。

图为检验结果


数据分布形状主要由均值、方差影响,因此我们只需验证均值、方差是否一致,即可证明分组是否同质。
  1. 统计检验:通过双样本T检验或者多样本ANOVA检验,比较两个独立样本或配对样本的均值差异,具体检验方法可以根据实验样本量大小、样本均衡性情况、样本组数量决定。
  2. 方差齐性检验:通过Levene's Test或Bartlett's Test来验证实验组和对照组的数据方差是否一致。如果p值大于常用的显著性水平(如0.05),则可以认为组间方差是同质的。

  案例六:「异常值问题』在一次打赏实验中,发现实验效果波动较大,排查后发现榜一大哥竟能左右实验效果


  • 案例分析


在这个案例中,由于实验的用户一致性,榜一大哥会持续进入同一个实验组,于是大哥上线的天数该实验组效果就很好,大哥不在的天数则表现平平。这种实验如果没有找到这个异常值,按照常规经验难以进行分析和迭代。


  • 当前解法


方差缩减:因为异常值会影响到指标的均值、方差,因此异常值除了引起汇总结果的波动外,实验的AA检验、AB检验也都会受影响。目前根据参与实验的实际样本量,采用常用手段:四分位数间距法、标准差法、Z-Score、孤立森林等方式做动态处理。


  • 思考

A/B实验是验证因果关系的黄金标准。错误的因,只会带来错误的果。做好数据可用性验证,保证因果关系的正确发现,是沉淀实验经验,建立实验文化的必要基础。


实验分析科学


在获得可用的数据基础后,我们开始关注实验分析的问题,图示为一个简化的实验分析流程。


确定需要观察的指标&维度:

在上述案例中,可以发现漏看关键指标、关键维度都可能影响实验结论产出,且实际过程中实验往往需要下钻到关键维度,根据维度项里对实验的差异反应,寻找迭代方向。


  案例七:「实验正确看数」在提单价的实验中,我们发现实验的GMV提升明显,但是观看时长显著降低


  • 案例分析


由于提高了价格带,导致部分低购用户直接选择不看了,而这部分用户本身对GMV的贡献也不大,所以实验依然能够取得明显效果,然而低购群体里的较低年龄段用户他们贡献了较多的观看时长,因此该实验的观看时长也被显著降低。

因此得出一个业务经验:提单价的实验应避免波及(低GMV贡献但高观看时长贡献)的用户。


  • 当前解法

针对不同业务背景,提前确定看数范围(指标+维度),避免经验不足引起的实验观察错误,通常这块由业务方+数据同学共同制定。


判断低响应实验


  案例八:「低响应实验」活动入口做的AB实验,响应度太低无法分析实验数据。



  • 案例分析

由于活动入口只开放在实验组,且实验组中参与活动的用户只有10%不到,因此我们需要评估的实验效果是对这10%用户造成的增量效果。

然而实际分析中,由于仅10%的用户参与,除了样本量过少难以评估实验结果外,更重要的是:经过一层行为过滤后(发生主动点击行为)的残存用户是否在心智上和普遍用户已经不同质了,如果不同质,则实验结果不可用。

  • 当前解法

和小样本量实验相似,核心是获得两组可比较的样本量;与小样本量实验不同的是,低响应实验有明确的标杆人群用于对齐,因此这里通常采用分层匹配或倾向性得分等方式来获得可比较的两组样本,进行最终的实验效果分析。


  定量分析


这块在第一篇文章中已经浓重介绍过,这里不再赘述。简单提及要点:没有置信度支撑的数据叫随机波动,不要当作实验结论



思考:
实验分析是实验的最终结果,其需要相关的业务背景和专业知识,才能获得一份高价值的实验分析报告,而实验报告对组织来说就是图书馆里的书籍,一份份书籍在组织里被丰富、被传承,组成了组织的实验文化。
基于此,我们可以微调一个大模型用于实验分析,它将负责结合历史经验、当前业务背景、当前实验数据给出一个超过人工的实验报告,同时通过和它交流获取业务知识,辅助判断实验假设可行性。

相关资料

实验推全最终会回应到业务目标达成,我在这块的推动经验较为薄弱,如何围绕业务目标建立可量化的推全标准,这需要多方的信任基础和强大的组织推力,以后补充。

感谢领导信任,让我有机会在直播业务中完善我对A/B实验的理解;感谢大佬的大力支持,感谢所有合作的产品老师、运营老师、算法老师、工程老师、数据研发老师、数据科学老师的大力支持。


团队介绍


技术线内容技术团队,是承接淘天内容电商最核心的技术力量,团队拥有非常全面的内容技术领域布局,不仅覆盖音视频编解码、流媒体传输、低延时直播等多媒体技术,也包含计算机视觉、自然语言处理、多模态內容理解、AIGC等人工智能领域。
在内容技术领域之外,团队拥有强大的算法、前端、客户端、服务端、测试开发、数据开发、数据科学团队、负责面向亿级消费者提供服务的淘宝直播、淘宝逛逛、点淘等核心业务场域;
面向千万级商家、品牌、机构、达人的内容创作工具、内容运营平台内容商业化解决方案;以及面向淘天集团电商板块各业务线的内容管理、内容总线等基石平台。
简历投递邮箱:[email protected]




本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

90后程序员开发视频搬运软件、不到一年获利超 700 万,结局很刑! 高中生自创开源编程语言作为成人礼——网友锐评:依托答辩 RustDesk 由于诈骗猖獗,暂停国内服务 淘宝 (taobao.com) 重启网页版优化工作 Java 17 是最常用的 Java LTS 版本 Windows 10 市场份额达 70%,Windows 11 持续下滑 开源日报 | 谷歌扶持鸿蒙上位;开源Rabbit R1;Docker加持的安卓手机;微软的焦虑和野心;海尔电器把开放平台关了 Apple 发布 M4 芯片 谷歌删除 Android 通用内核 (ACK) 对 RISC-V 架构的支持 云风从阿里离职,未来计划制作 Windows 平台的独立游戏
{{o.name}}
{{m.name}}

추천

출처my.oschina.net/u/4662964/blog/11104133