写点什么

关于 A/B 测试你不得不知道的 7 件事

  • 2020-04-05
  • 本文字数:2030 字

    阅读完需:约 7 分钟

关于A/B测试你不得不知道的7件事

AB 测试,或称 ABT,想必你已有所耳闻。


可能在公司的培训中,你曾学习到 ABT 的知识;可能在平时的交流中,你曾谈及 ABT 的意义;也可能在网上的浏览中,你曾一窥 ABT 的强大。


不过,什么人适合使用它,什么产品不适合它,它该用在哪儿,不该忽视哪些东西:


这些事儿,都将在下文中为你呈现。

什么是 A/B 测试

A/B 测试是一种用数据进行产品决策的方法,它用于比较网页或应用程序的两个或多个版本,以确定哪一个版本更好。A/B 测试本质上是一个实验机制,其向用户随机显示页面的某一个版本,并通过统计分析确定哪个版本对于设定的转化目标有更好的表现



通俗一点讲:现在页面上有个按钮是红色的,产品经理想把按钮颜色换成绿色——但是不知道用户反馈怎么样。这个场景下就应该做 A/B 测试:我们让 10%流量的用户使用 A 版本(红色按钮),10%流量的用户使用 B 版本(绿色按钮)。如果 B 版本的用户点击量更多的话,OK,发布 B 版本吧。如果 AB 两个版本按钮点击量差不多或者 A 版本点击量更多的话,那就不用浪费程序猿的时间去上线 B 版本了。

A/B 测试具体可以用在哪些地方

1 获取用户(吸引更多的人使用产品)


2 提高活跃度(引导用户做点什么)


3 提高留存(提升用户粘性)


4 增加收入(想法收钱呗)


5 传播推荐(让产品被更多人知道)


上面的 5 个步骤就是“AARRR“转化漏斗模型。在这个漏斗中,用户会在被导入之后层层流失,在层层深入中实现最终转化。一个好的产品经理会在产品生命周期中的各个阶段思考是否到达上面的五个目标——而 AB 测试,正好可以帮上忙。

哪些人会用到 A/B 测试

产品经理


几乎很少有公司设置增长黑客这个岗位,因此使用 A/B 测试驱动增长的职责自然落到了产品经理头上。例如,改变一个按钮颜色,更换页面风格(总之就是把产品做成什么样),或者是留存率,转化率这些都是产品经理常常挂在嘴边的。


运营


这里指的运营不是简简单单打个广告,拉条横幅的那种运营。这里指的是用数据驱动增长的增长黑客这类人。

什么样的产品不适合做 A/B 测试

日活小于 1000 的产品,不适合做 A/B 测试。从产品本身来说,似乎没有不适合做 A/B 测试的。但日活小于 1000 的产品由于流量基数太小,做 A/B 测试几乎没什么作用,并且结合需要支付第三方工具的费用来说得不偿失。目前 BAT 级别公司有自己的 A/B 测试团队,中型公司用第三方 SDK(例如我们 Testin 的 A/B 测试),而日活流量较小的公司不太适合 A/B 测试。

A/B 测试与灰度发布是什么关系

如果去问一些产品经理 A/B 测试是什么,他们可能会说出灰度发布的概念。实际上灰度发布只是 A/B 测试的一个子功能


在一个完备的 A/B 测试中,我们可以灵活地控制不同产品版本的流量分配:例如,我们可以让 10%用户用 A 版本,10%用户用 B 版本,如果用户在 B 版本中的点击量、留存率等数据表现更好,那么就可以逐步扩大 B 版本的流量分配,最终让所有用户都用 B 版本。


而灰度发布一般来说是在预发步环境中发布新版本,确定功能正常之后再将新版本完整上线。在一个 A/B 测试系统中,我们完全可以通过控制不同版本的流量分配来完成灰度发布,但是一个灰度发布系统却不能实现 A/B 测试系统灵活的流量分配及针对不同版本的数据统计功能。

A/B 测试的实际案例

例 1 页面新增了一个注册表单


国外某公司在新版本上新增了一个注册表单。该公司导入 3000 多访客流量参与这次 A/B 测试。最终结果为转化率提升 43.85%。



例 2 更合适的图片提高了 40.18%的转化率


ExactTarget 是一家全球性数字营销的 SaaS 领导者.他们在登录页的内容是吸引人们参加大会,而原始版本的图片是一台笔记本。在新版本里面他们将图片换成了实际大会的场景图片,从而使转化率提高了 40.18%。从用户心理的角度分析,笔记本电脑屏幕会给人虚拟会议的印象,而不是现场活动。



例 3 免费试用按钮使注册次数增加了 158%


GetResponse 的首页一开始只有一个购买按钮,他们想新增一个试用按钮提高注册率。但这个方案有可能会降低付费用户的数量,所以试验是冒着一定的风险的。


旧版页面:



新版页面:



最终结果是注册率提高 148%,而且购买人数没有降低。

A/B 测试中应该注意的一些细节

流量。做 A/B 测试的用户流量不能太小,一般日活在 1000 以上;


数据指标。A/B 测试需要有具体的、可量化的数据指标,比如“将下个月产品的留存率提高百分之三十”是很具体的 A/B 测试目标,而“明天是该吃苹果还是吃梨”就不是一个合适的 A/B 测试目标;


测试的时间周期一般为一至两个星期,时间太短无法完整覆盖完整的用户的行为习惯;


科学分割流量。分配到每个版本的用户群体在行为特征方面应该保持一致(如果 A 版本用户用的都是土豪金,B 版本都是诺基亚,那试验结果肯定不能说明什么,因为两组人群特征不同);


不能只看试验结果。还要结合置信区间来判断,例如 95%的置信度的前提下,置信区间为[-3%, +5.4%],说明这个 A/B 测试的实验有可能使“点击次数”降低 3%,也有可能提升 5.4%,这个试验的结果是不显著的,在这种情况下我们需要收集更多的用户行为数据,以得到确定性的试验结果。


2020-04-05 16:541865

评论

发布
暂无评论
发现更多内容

【DevOps系列】保护你的制品:制品的安全策略与实践

嘉为蓝鲸

DevOps 制品库 制品管理

【DevOps系列】效能洞察的准备工作指南

嘉为蓝鲸

DevOps 研发 效能平台 效能洞察

融合创新,智领未来 | 华为云云原生精彩亮相2024华为云开源开发者论坛

华为云开源

云原生 开发者大会 华为云开源

利用淘宝1688 API接口,构建高效淘宝代购与集运解决方案

代码忍者

代购商城系统

法国 mixtral一种具有开放权重的高质量稀疏专家混合模型

测试人

软件测试

渠道伙伴业务系统上线!嘉为蓝鲸WeOps渠道战略重要里程碑

嘉为蓝鲸

#WeOps

稳!Zilliz助力XTransfer基于RAG打造B2B外贸金融加速器

Zilliz

Milvus zilliz cloud 大模型应用 企业知识库

【DevOps系列】升级你的制品:探讨制品晋级的战略

嘉为蓝鲸

制品管理 制品仓库 制品仓库 Packages

【DevOps系列】精准度量:GQM与4Keys在研发效能中的应用

嘉为蓝鲸

DevOps 研发效能 效能度量 GQM 4Keys

DocFlow票据AI自动化处理工具:出色的文档解析+抽取能力,提升企业文档数字化管理效能

合合技术团队

人工智能 数字化 文档解析 票据

【DevOps系列】效能洞察4步走:金融企业效能度量转型实践

嘉为蓝鲸

DevOps 效能平台 效能洞察

智能运维树标杆!嘉为蓝鲸通过信通院首批AI Cloud Stability评估

嘉为蓝鲸

运维 AIOPS 大模型 中国信通院

荆门正规等保测评机构有吗?在哪里?

行云管家

等保 等保测评 荆门

DevOps系列之从前线到后勤:制品管理的演变历史

嘉为蓝鲸

DevOps 制品库 制品管理

牛市来啦?交易量大涨!金融机构如何强化应急体系,筑牢运维安全防线?

嘉为蓝鲸

运维 可观测 应急响应 IT运维管理

CAD测坐标功能常见问题集锦

在路上

cad cad看图 CAD测量

如何设置AD域用户仅登录到指定的计算机?AD域管理软件

运维有小邓

AD域 IT自动化运维 AD域管理

【DevOps系列】制品库在行动:本地管理与多地同步的实战应用

嘉为蓝鲸

制品库 制品管理

从虚拟到现实:数字孪生与数字样机的进化之路

DevOps和数字孪生

【DevOps系列】企业效能洞察的必要性和重要性

嘉为蓝鲸

DevOps 效能洞察

【DevOps系列】企业度量难题破解:全面解析度量平台的核心能力

嘉为蓝鲸

DevOps 效能洞察 研发效能度量

淘宝电商API全解析:赋能商家,驱动电商新生态

代码忍者

API 接口 pinduoduo API

法国 mixtral一种具有开放权重的高质量稀疏专家混合模型

测吧(北京)科技有限公司

测试

【DevOps系列】赋能开发:理解仓库代理的力量

嘉为蓝鲸

制品库管理 制品库 制品仓库 Packages

TiDB 优化器 | 执行计划管理及实践

PingCAP

数据库 TiDB 优化器

关于A/B测试你不得不知道的7件事_文化 & 方法_云测数据_InfoQ精选文章