数据分析 36 计(14):A/B 测试中的 10 个陷阱,一不注意就白做

Tian
Tian
Tian
33
文章
7
评论
2021年2月24日18:24:07
评论
975 2824字阅读9分24秒
摘要

本节概述了公司在执行 A/B 测试时可能遇到的十大隐患。 此外,本节还介绍了避免这些陷阱的方法,从而可以通过这种测试工作获得更高的投资回报率 (ROI),并对报告的 A/B 测试结果更有信心。

数据分析 36 计(14):A/B 测试中的 10 个陷阱,一不注意就白做

1. 背景

A/B 测试是大多数互联网营销优化计划的基础,可帮助产品向用户提供经过优化的、有针对性的体验。A/B 测试算是目前探测因果关系最有效的方法,目前关于 A/B 测试原理的文章铺天盖地,但是具体实施时还是会各种陷阱,导致业务同学把数据同学问到一脸懵,有时无法白话解释陷阱的问题原理。本节概述了公司在执行 A/B 测试时可能遇到的十大隐患。 此外,本节还介绍了避免这些陷阱的方法,从而可以通过这种测试工作获得更高的投资回报率 (ROI),并对报告的 A/B 测试结果更有信心。
  • Pitfall1:忽视显著性水平的作用
  • Pitfall2:忽视统计功效的作用
  • Pitfall3:A/B 测试实施时间,怎么决定
  • Pitfall4:满足样本量就可以停止实验了吗
  • Pitfall5:分析指标如何选择才能反映业务
  • Pitfall6:别人做的实验是否会影响我的实验结果
  • Pitfall7:在测试期间可以更改流量分配吗
  • Pitfall8:实验数据并不服从正态分布怎么办
  • Pitfall9:使用单尾检验分析结果
  • Pitfall10:多组方案检验,直接分别都做 T 检验吗

2. 十大陷阱

Pitfall1:忽视显著性水平的作用
A/B 测试是否存在这种可能:报告了两个方案之间的转化率有着显著差异,但实际上这种差异并不存在?这就是测试的“显著性水平”的作用所在。通常,我们将这种误导性的结论称为误报;而在统计学中,则称之为“Ⅰ 类错误”(即当原假设正确时,错误地拒绝了该假设)。

当我们指定 A/B 测试的显著性水平时,实际就是在以下两种情况的容差之间进行权衡:第一,认同 A 方案比 B 方案好,但事实并非如此(I 类错误或“误报”);第二,认为两个体验之间不存在具有统计意义的差异,但实际这种差异是存在真正的(II 类错误或“漏报”)。在运行测试之前确定“置信水平”。测试完成后确定的“置信区间”受三个关键因素影响:测试样本量、显著性水平和总体标准偏差。由于产品经理是在设计测试之前选择显著性水平,而总体标准偏差不会受到影响,因此唯一的“可控”因素就是样本量。根据选择的置信区间所需的样本量,以及达到该样本量所需经历的时间,是在测试的设计过程中必须做出的关键决定。

Pitfall2:忽视统计功效的作用

统计功效是在测试中检测出方案之间转化率真实差异的概率。由于转化事件存在随机性,因此即使两个方案之间的转化率在长期测试中结果存在差异,该测试可能也不会显示具有统计意义的显著差异。可以认为这就是运气不好或纯属偶然。我们将这种未能检测到转化率真实差异的情况称为漏报或 II 类错误。即为如果备择假设H1为真,接受H1的概率。就是上图中等 power。一般认为第一类错误 α 不超过5%, 即Significance Level(显著性水平) = 5%。第二类错误 β 不超过20%,即Statistical Power(统计功效) = 1 - β = 80%。

以下两个关键因素决定了测试的功效:第一个是样本量,即测试中包含的用户数量。第二个是我们希望测试检测到的转化率差异。比较直观地说,如果只想检测到较大的转化率差异,那么在测试中,实际可以检测到这种较大差异的可能性就要高得多,那么,想要检测到的差异越小,需要的样本量就越大,也因此,获得更大的样本量所需的时间就越长。

现今,很多互联网公司进行了大量的低功效测试。换句话说,他们使用的样本量过小。这意味着即使转化率实际存在实质性差异,他们也很难检测到正确报告的正样例。事实上,如果不断地进行低功效的测试,则误报数量会与正确报告的正样例数量相当,甚至大大超过。要避免进行低功效测试,请考虑使用典型的高功效测试标准,包括将置信水平设为 95%,统计功效设为 80%。在这样的测试中,95% 的概率可避免出现误报,80% 的概率可避免出现漏报。

Pitfall3:A/B 测试实施时间,怎么决定
A/B 测试实施时间一般由实验所需的样本量决定,如何决定样本的数量?太多了流量不够时会等太长时间或者说浪费流量,太少了会因为统计灵敏度太低而得到不置性水平。为了方便靠谱的计算 A/B 测试所需的样本量,可以借助于 GPower(链接在文末)这个免费软件,这是用来计算统计功效(t检验、z检验、F检验、卡方检验等)的软件。样本量会随着功效增加而增加。
一般在 A/B 测试中我们关注两类指标,一是转化率、点击率等比例数据,二是用户点击量、购买量等均值数据,这里我们需要根据不同类型的数据分别采用t检验、z检验来估计所需样本量。
  • 比例数据。两组比例值,置信度水平α,检验功效1-β,组2/组1样本量比例,然后点击“calculate”即可计算出测试所需的样本量。
  • 均值数据。我们首先根据组1组2的均值、方差计算出cohen's d,该值表示两个均值之间的标准差异的大小。然后再输入α、1-β和两组样本量比值,就可以计算出测试所需的样本量。

Pitfall4:满足样本量就可以停止实验了吗

我们提到测试时长主要由样本量决定,那么有些测试我们可以分配大量流量,一两天就能达到所需样本量,是不是就可以停止实验了?答案是否定的,原因有三:

新奇效应,在统计学上指的是对于概率事件的结果,随着试验次数的增加,结果往往趋近于均值。在AB测试中,试验早期用户因为新奇会关注新改动,但是往往前期显著的提升在之后几天或者几周的测试中会逐渐消失。

周内效应,一个实验至少需要一周,避免指标的周期性效应,比如工作日与周末之间的差异较大而导致误判。

以偏概全,实验周期不够,不能满足指标测算或随机分组的目的。与时间限制有关的实验应该考虑长期转化情况。如「限时优惠」一类的与时间相关的设定。如果实验时间跑的太短,没有让高频用户和低频用户都包含在实验里,那么实验结果就只考虑了高频用户的行为。

下图显示了两个不同访客在周日下午在同一时间看到的两个方案。方案 A 的考虑期较短,该访客在当天晚些时候便已转化。但是,方案 B 的考虑期较长,查看方案 B 的访客对该方案考虑了一段时间,并最终在周一上午形成转化。如果在周日晚上停止实验,这使方案 B 处于明显的劣势。

 

本文在微信公众号是付费文章,设置付费是为了提高一点点门槛,让知识的质量更好。这也是促使作者写出更优质文章的一种方式,希望您看完能有所收获,感谢支持!

手机端用户请使用微信扫一扫扫描以下二维码继续阅读

数据分析 36 计(14):A/B 测试中的 10 个陷阱,一不注意就白做

weinxin
微信公众号
微信公众号搜索关注「DataGo 数据狗」 数据分析从 0 到 1 再到 2 。
Tian
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: