DoorDash 通过多臂老虎机增强 A/B 测试

  • 2026-01-30
    北京
  • 本文字数:1059 字

    阅读完需:约 3 分钟

DoorDash 工程师 Caixia Huang 和 Alex Weinstein 说,尽管实验至关重要,但传统 A/B 测试可能过于缓慢且成本高昂。为了消除这些限制,他们采用了“多臂老虎机”(MAB)方法来优化实验

 

他们的实验目标是,最小化因向用户子集提供效果较差的功能变体而造成的机遇成本或遗憾。传统 A/B 测试依赖于固定的流量分割和预先确定的样本大小,并且在整个实验过程中保持不变。这样做的结果是,即使早期出现了明显的优胜版本,实验也会继续进行,直到达到预定的停止条件。更糟糕的是,随着同时进行的实验增多,机会成本会不断累积,而鼓励团队按顺序开展实验以减少遗憾则会显著减慢迭代速度。

 

多臂老虎机方法提供了一种基于性能自适应分配流量的方法,可以在加速学习的同时减少浪费。其基本工作原理是:它反复在多个选项(仅部分属性已知)中做选择,并随着实验进行收集到更多证据时细化这些选项:

 

就我们的目的来说,这种策略根据实验期间收集的持续反馈将实验流量分配给表现更好的功能变体。其核心思想是:自动化的多臂老虎机(MAB)代理会不断地从一组动作池(即多个操作选项)中做选择,从而最大化预设的奖励值,同时在后续迭代中通过用户反馈不断学习优化策略。

 

这种策略实现了探索(即了解所有候选选项)和利用(即优先考虑最佳表现选项)之间的平衡,直到实验收敛到最佳选项。

 

按照 Huang 和 Weinstein 的说法,MAB 有助于降低实验成本,方便快速评估许多不同的想法。

 

DoorDash 的 MAB 方法核心是汤普森采样,这是一种贝叶斯算法,以其卓越的性能和对延迟反馈的鲁棒性而闻名。简而言之,该算法通过从后验奖励分布(即决策周期结束后)采样来决定资源分配,并在新数据涌入时更新奖励预期以准备下个决策周期。在每个决策周期中,预期奖励将被用于确定选项分配方案。

 

DoorDash 工程师表示,采用 MAB 方法并非没有挑战。特别是,对奖励函数中未包含的指标进行推断变得更加困难,而这反过来又在鼓励团队选择更复杂的奖励指标,以便捕捉尽可能多的洞察。相比之下,传统 A/B 测试允许在实验结束后对任何指标进行事后分析。

 

此外,由于 MAB 会更积极地调整分配,所以它可能会导致用户在多次与同一功能进行交互时产生不一致的用户体验。DoorDash 计划通过采用上下文老虎机、利用贝叶斯优化和实施粘性用户分配来解决这些限制,增强整体用户体验。

 

多臂老虎机的概念来自概率论和机器学习。它使用老虎机的类比描述了这样一个问题:一个赌徒面对多个老虎机,必须决定玩哪个,多久玩一次,以什么顺序玩,以及何时尝试另一台机器。

 

原文链接:

https://www.infoq.com/news/2026/01/multi-armed-bandits-doordash/