1. 背景
- Pitfall1:忽视显著性水平的作用
- Pitfall2:忽视统计功效的作用
- Pitfall3:A/B 测试实施时间,怎么决定
- Pitfall4:满足样本量就可以停止实验了吗
- Pitfall5:分析指标如何选择才能反映业务
- Pitfall6:别人做的实验是否会影响我的实验结果
- Pitfall7:在测试期间可以更改流量分配吗
- Pitfall8:实验数据并不服从正态分布怎么办
- Pitfall9:使用单尾检验分析结果
- Pitfall10:多组方案检验,直接分别都做 T 检验吗
2. 十大陷阱
当我们指定 A/B 测试的显著性水平时,实际就是在以下两种情况的容差之间进行权衡:第一,认同 A 方案比 B 方案好,但事实并非如此(I 类错误或“误报”);第二,认为两个体验之间不存在具有统计意义的差异,但实际这种差异是存在真正的(II 类错误或“漏报”)。在运行测试之前确定“置信水平”。测试完成后确定的“置信区间”受三个关键因素影响:测试样本量、显著性水平和总体标准偏差。由于产品经理是在设计测试之前选择显著性水平,而总体标准偏差不会受到影响,因此唯一的“可控”因素就是样本量。根据选择的置信区间所需的样本量,以及达到该样本量所需经历的时间,是在测试的设计过程中必须做出的关键决定。
统计功效是在测试中检测出方案之间转化率真实差异的概率。由于转化事件存在随机性,因此即使两个方案之间的转化率在长期测试中结果存在差异,该测试可能也不会显示具有统计意义的显著差异。可以认为这就是运气不好或纯属偶然。我们将这种未能检测到转化率真实差异的情况称为漏报或 II 类错误。即为如果备择假设H1为真,接受H1的概率。就是上图中等 power。一般认为第一类错误 α 不超过5%, 即Significance Level(显著性水平) = 5%。第二类错误 β 不超过20%,即Statistical Power(统计功效) = 1 - β = 80%。
以下两个关键因素决定了测试的功效:第一个是样本量,即测试中包含的用户数量。第二个是我们希望测试检测到的转化率差异。比较直观地说,如果只想检测到较大的转化率差异,那么在测试中,实际可以检测到这种较大差异的可能性就要高得多,那么,想要检测到的差异越小,需要的样本量就越大,也因此,获得更大的样本量所需的时间就越长。
现今,很多互联网公司进行了大量的低功效测试。换句话说,他们使用的样本量过小。这意味着即使转化率实际存在实质性差异,他们也很难检测到正确报告的正样例。事实上,如果不断地进行低功效的测试,则误报数量会与正确报告的正样例数量相当,甚至大大超过。要避免进行低功效测试,请考虑使用典型的高功效测试标准,包括将置信水平设为 95%,统计功效设为 80%。在这样的测试中,95% 的概率可避免出现误报,80% 的概率可避免出现漏报。
- 比例数据。两组比例值,置信度水平α,检验功效1-β,组2/组1样本量比例,然后点击“calculate”即可计算出测试所需的样本量。
- 均值数据。我们首先根据组1组2的均值、方差计算出cohen's d,该值表示两个均值之间的标准差异的大小。然后再输入α、1-β和两组样本量比值,就可以计算出测试所需的样本量。
Pitfall4:满足样本量就可以停止实验了吗
我们提到测试时长主要由样本量决定,那么有些测试我们可以分配大量流量,一两天就能达到所需样本量,是不是就可以停止实验了?答案是否定的,原因有三:
新奇效应,在统计学上指的是对于概率事件的结果,随着试验次数的增加,结果往往趋近于均值。在AB测试中,试验早期用户因为新奇会关注新改动,但是往往前期显著的提升在之后几天或者几周的测试中会逐渐消失。
周内效应,一个实验至少需要一周,避免指标的周期性效应,比如工作日与周末之间的差异较大而导致误判。
以偏概全,实验周期不够,不能满足指标测算或随机分组的目的。与时间限制有关的实验应该考虑长期转化情况。如「限时优惠」一类的与时间相关的设定。如果实验时间跑的太短,没有让高频用户和低频用户都包含在实验里,那么实验结果就只考虑了高频用户的行为。
下图显示了两个不同访客在周日下午在同一时间看到的两个方案。方案 A 的考虑期较短,该访客在当天晚些时候便已转化。但是,方案 B 的考虑期较长,查看方案 B 的访客对该方案考虑了一段时间,并最终在周一上午形成转化。如果在周日晚上停止实验,这使方案 B 处于明显的劣势。
本文在微信公众号是付费文章,设置付费是为了提高一点点门槛,让知识的质量更好。这也是促使作者写出更优质文章的一种方式,希望您看完能有所收获,感谢支持!

评论