你好，我是博伟。

今天这节课我们就进入到“基础篇”模块了，通过前面的学习，你已经清楚了做A/B测试的基本流程，接下来呢，我会带你去看看在实践中确定目标和假设、确定指标、选取实验单位、估算样本量大小，以及分析测试结果这5步，具体应该怎么操作。

我们知道，确定目标和假设、确定指标这两步决定了测试的方向，可谓至关重要。那么，如何一步步地把业务问题转化为A/B测试的目标和假设呢？又如何根据目标来选择合适的指标呢？在接下来的两节课，我会通过大量的案例来给你解答这两个问题。在讲解案例的同时，我也会结合我的实践经验，给你一些可落地执行、切实可操作的建议，让你知道该如何规避坑点。

确定目标和假设

首先，我们要明确，做A/B测试肯定是为了解决业务上遇到的问题，而绝不是为了做而做。所以，找到了要解决的业务问题，也就基本找到了A/B测试目标。为什么这么说呢？

让我们来回顾下开篇词中讲的A/B测试解决的常见业务问题，看看A/B测试可以用在什么领域，解决什么问题：

总结一下这些业务问题，我们就会发现一些共性：

所有的业务问题都会有一个目标，比如提升用户粘性是业务问题的目标，同时我们也把这个目标称作“结果”。
有的业务问题会有明确的努力方向，比如，通过改变外观来提升点击率，这里的“改变外观”就是明确的努力方向，同时我们也把“改变外观”等变化称作“原因”。不过有的业务问题没有明确的努力方向，这时候我们需要根据具体的情况去发现原因。比如对于“如何确定最优的营销时间”这个业务问题，我们分析发掘之后会发现，周五晚上的营销效果会比较好。那么这里的“原因”就是大家结束了一周忙碌的工作，就会比较有时间。

你看，把产品/业务的变化作为原因，把业务目标变成结果，我们就把业务问题转换成了因果推断。而对于做A/B测试来说，把业务问题转换成因果推断，也就意味着找到了测试的目标。所谓的假设，在A/B测试的语境下，就是既包含了想要做出的改变，又包含了期望达到的结果。

接下来，我就以一款按月付费的音乐App要提高营收为例，带你看看该如何确定目标和假设。

首先，分析问题，确定想要达到的结果。

想要提高营收，我们首先得清楚问题出在哪里。这个时候，我们可以进行数据分析。比如，和竞品进行对比分析后发现，我们App的用户留存率低于行业平均水平。因此，用户留存率就是我们这款App目前存在的问题。

其次，提出解决业务问题的大致方案。

影响用户留存的原因有很多种。比如，内容是否足够丰富，能满足不同用户的音乐需求？产品是否有足够多的便利功能，可以给用户更好的使用体验？App的开启和运行速度是否足够流畅？

通过进一步的分析发现，我们的产品在歌曲库的内容和丰富程度上，都在行业平均水平之上，而且App的运行也十分流畅，但是缺少一些便利的产品功能。所以，我们提出的大致解决方案就是，要通过增加产品功能来提升用户留存。

最后，从大致的解决方案中提取出具体的假设。

那针对这款音乐App，可以增加什么具体的产品功能呢？你可能会想到，在每个专辑/歌单播放完成后增加“自动播放下一个专辑/歌单”的功能，以此来提升用户留存。

这样一来，我们就通过三个步骤基本确定了目标和假设。

为什么说是“基本确定”了呢？因为确定目标和假设到这里还没有完全完成。要注意了，我们在上面确定目标和假设的时候其实还忽略了一个隐形的坑：这个假设中的“提升用户留存”还不能算是一个好的目标。因为这个假设还不够具体，目标没有被量化，而没有量化就没有办法提升。所以在这里，我们还需要做的就是量化“用户留存率”这个概念。

在按月付费的音乐App这个案例中，用户只要每个月按时付费续订，就是留存。所以，我们可以把用户留存定义为下个月的续订率，这样我们就把假设变得更加具体，并且目标可被量化。

那我们优化后，这个A/B测试的假设就变成了：在每个专辑/歌单播放完成后增加“自动播放下一个专辑/歌单”的功能，可以提升用户下个月的续订率。

为了帮你理解怎样才能做出好的假设，我根据自己的经验，把到底啥是好的假设，啥是不好的假设归纳到了一张图中，你一看就明白了：

以上就是确定目标和假设的核心内容，你只要记住以下两点就够了：

A/B测试是因果推断，所以我们首先要确定原因和结果。
目标决定了结果（用户留存），而假设又决定了原因（增加自动播放的功能），所以目标和假设对于A/B测试来说，是缺一不可。

有了测试目标和假设，我们就可以进入A/B测试的第二步了：确定指标。具体该如何确定指标呢？在解答这个问题之前，我们还需要先熟悉下指标的分类。

A/B测试的指标有哪几类？

一般来说， A/B测试的指标分为评价指标（Evaluation Metrics）和护栏指标（Guardrail Metrics）这两类。

评价指标，一般指能驱动公司/组织实现核心价值的指标，又被称作驱动指标。评价指标通常是短期的、比较敏感、有很强的可操作性，例如点击率、转化率、人均使用时长等。

可以说，评价指标是能够直接评价A/B测试结果的指标，是我们要重点关注的。

那有了评价指标，就可以保证A/B测试的成功了吗？显然不是的。很多时候，我们可能考虑得不够全面，忽略了测试本身的合理性，不确定测试是否会对业务有负面效果，因此很可能得出错误的结论。

举个例子。如果为了优化一个网页的点击率，就给网页添加了非常酷炫的动画效果。结果点击率是提升了，网页加载时间却增加了，造成了不好的用户体验。长期来看，这就不利于业务的发展。

所以，我们还需要从产品长远发展的角度出发，找到护栏指标。概括地说，护栏指标属于A/B测试中基本的合理性检验（Sanity Check），就像飞机起飞前的安全检查一样。它的作用就是作为辅助，来保障A/B测试的质量：

衡量A/B测试是否符合业务上的长期目标，不会因为优化短期指标而打乱长期目标。
确保从统计上尽量减少出现各种偏差（Bias），得到尽可能值得信任的实验结果。

到这里我们小结一下。在确定指标这一步，其实就是要确定评价指标和护栏指标。而护栏指标作为辅助性的指标，需要在选好了评价指标后才能确定。

那么问题来了，什么样的指标才能作为评价指标呢？

什么样的指标可以作为评价指标？

既然A/B测试的本质是因果推断，那么我们选择的业务指标的变化（结果）必须要可以归因到实验中的变量（原因）。所以，评价指标的第一个特征，就是可归因性。

比如，我们要测试增加“自动播放”功能，是否可以提升App的续订率。那么，这里的评价指标续订率的变化，就必须可以归因于增加了“自动播放”功能。在测试中我们控制其他可能影响续订率的因素都相同的情况下，增加了“自动播放”功能的变化就成了续订率的唯一影响因素。

刚才我们提到了，好的假设要能够被量化，否则就没有办法进行实验组和对照组的比较。这也就是评价指标要有的第二个特征：可测量性。

比如，对于音乐App来说，像用户满意度这个指标就不是很好量化。但是像用户续订率这样的指标，就可以量化。所以，我们就可以把“用户满意度”转化成“用户续订率”这种可以量化的指标。

可测量性和可归因性这两个特征都比较容易判断，除此之外，评价指标还具有第三个特征：敏感性和稳定性。那怎么理解呢？我用一句话来解释下：如果实验中的变量变化了，评价指标要能敏感地做出相应的变化；但如果是其他因素变化了，评价指标要能保持相应的稳定性。

看一个例子吧。还是在音乐App中，如果我想测试某一个具体内容的推送效果，比如推送周杰伦的新专辑，那么续订率会是一个好的指标吗？答案是否定的。

因为具体的推送是一次性的，而且推送只会产生短期效果（比如增加用户对杰伦新专辑的收听率），但不太会产生长期效果（比如增加续订率）。所以，续订率这个指标就对杰伦的推送不是很敏感。相反，短期的收听率是对单次推送更加敏感且合适的指标。

从这个例子中，我们可以得出两个结论：

用A/B测试来检测单次的变化时（比如单次推送/邮件）一般选用短期效果的指标，因为长期效果目标通常对单次变化并不敏感。
用A/B测试来检测连续的、永久的变化时（比如增加产品功能），可以选用长期效果的指标。

可见，如果选取的评价指标对A/B测试中的变化不敏感，或者对其他变化太敏感，我们的实验都会失败。那么，具体该如何测量评价指标的敏感性和稳定性呢？业界通常采用A/A测试来测量稳定性，用回溯性分析来表征敏感性。我来给你具体解释一下。

和A/B测试类似，A/A测试（A/A Test）也是把被测试对象分成实验组和对照组。但不同的是，A/A测试中两组对象拥有的是完全相同的体验，如果A/A测试的结果发现两组的指标有显著不同，那么就说明要么分组分得不均匀，每组的数据分布差异较大；要么选取的指标波动范围太大，稳定性差。

如果没有之前实验的数据，或者是因为某些原因（比如时间不够）没有办法跑新的实验，那我们也可以通过分析历史数据，进行回溯性分析（Retrospective Analysis）。也就是在分析之前不同的产品变化时，去看我们感兴趣的指标是否有相应的变化。

比如，我们选取续订率作为衡量增加“自动播放”功能是否有用的指标，那么我们就要去分析，在过去增加其他有利于用户留存的产品功能前后，续订率是不是有明显的变化。

好了，知道了应该选择什么样的指标作为评价指标之后，我们就可以开始选取适合我们自己业务的指标了。

如何选取具体的评价指标？

正像我们今天所看到的，确定评价指标的方法林林总总，但到底哪些是好用的，是真正可落地的呢？经过这些年的实践，我逐步总结积累了3种经验证确实简单、可落地的方法。

我还是以音乐App为例，和你解释下。

第一，要清楚业务或产品所处的阶段，根据这个阶段的目标，来确定评价指标。

这是因为，不同的业务/产品，甚至是同一个业务/产品的不同阶段，目标不同评价指标也会差别较大。

拿音乐App来说，在起步阶段，我们一般把增加新用户作为主要目标，把在拉新过程中的各种点击率、转化率作为评价指标；在发展和成熟期，一般会重点关注现有用户的使用和留存情况，把用户的平均使用时间和频率、产品特定功能的使用率，以及用户的留存率等作为评价指标。

比如要提高留存，首先要明确什么是留存：用户只要每个月按时付费续订，就是留存。那么这个时候，我们可以把用户留存的评价指标定义为下个月的续订率。

第二，如果目标比较抽象，我们就需要采用定性+定量相结合的方法了。

对于一些比较抽象的目标，比如用户的满意度，我们可以使用一些定性的方法，确定一些假设和想法，像问卷调查、用户调研等。同时，我们还可以利用用户使用产品时的各种数据，进行定量的数据分析，来了解他们的使用行为。

最后，我们把定性的用户调研结果和定量的用户使用行为分析结合起来，找出哪些使用行为和用户的满意度有着强烈的关系。

对于音乐App来说，我们具体可以这么做：

首先，通过定性的用户调研，来确定哪些用户满意、哪些用户不满意，完成分组。
接着，我们对每组用户（满意的用户和不满意的用户）分别做定量的用户使用习惯的数据分析，发现把音乐收藏到自己曲库的用户有较高的满意度，说明收藏音乐这个行为和用户满意度有强烈的正相关性。这时候，我们就可以把收藏音乐作为评价指标（比如收藏音乐的数量）。更进一步，我们还可以通过数据分析确定“收藏X首以上音乐的用户非常满意”中X的最优值是多少。

第三，如果有条件的话，你还可以通过公开或者非公开的渠道，参考其他公司相似的实验或者研究，根据自己的情况去借鉴他们使用的评价指标。

公开的渠道，是指网络上公开的各个公司关于A/B测试的文章或者论文。我经常会看的大公司的博客是Facebook、Google、Twitter，也推荐给你，你可以重点看Facebook中Measurement相关的文章，都是介绍评价广告效果的指标。

另外，你还可以去看一下《精益数据分析》这本书。在这本书里，你几乎可以找到所有重要互联网商业模式（电商，社交网络，移动App等）在各个阶段的典型指标。

为什么其他公司的评价指标有借鉴意义呢？原因很简单，To C的产品用到A/B测试的场景都很相似。比如，我们想要通过A/B测试提升音乐App中广告的效果，那么Facebook在广告业务上的经验就能给我们很大的启发。

相应地，非公开的渠道，是指你的从事A/B测试并愿意和你分享经验的朋友，以及A/B测试相关的行业峰会。

在实践中，大部分的指标是根据产品/业务发展阶段的目标来确定的；如果实验的目标比较抽象或者比较新，通过经验和数据分析无法产生，你就可以采用定性+定量的方法了。

小结

今天这一讲，我们解决了下面两个问题。

第一，确定目标和假设，其实就是三大步：分析问题，确定结果；找出大致的解决方案；确定假设。

第二，确定指标，就是要确定评价指标和护栏指标。这节课主要讲了评价指标，其中关键的是我们要从目标入手，把目标量化。

最后，我要再和你强调一下，在A/B测试中确定目标和假设的重要性。A/B测试是和业务紧密相关的，但我们往往会忽视业务中的目标，把注意力过多地放在选取评价指标上。在我看来，这就是本末倒置，就像一个不知道终点在哪里却一直在奔跑的运动员，如果能先明确终点，朝着终点的方向努力，会更快地取得成功。所以，你一定要按照今天学的内容，在做A/B测试时先试着找出你的目标和假设。

实际的业务场景大多比较复杂，很多时候单一的评价指标不足以帮助我们达成目标，而且指标也有波动性。所以，下节课，我会给你讲一讲综合多个指标建立总体评价标准的方法，以及指标的波动性。同时，我还会具体给你介绍护栏指标，保证你的A/B测试在业务和统计上的品质和质量。

思考题

根据生活和工作中的经历，结合今天所学内容，说说你认为有哪些指标是不适合做A/B测试的评价指标的？为什么呢？

欢迎在留言区写下你的思考和想法，我们可以一起交流讨论。如果你觉得有所收获，欢迎你把课程分享给你的同事或朋友，一起共同进步！