Martech 营销自动化从 AB 测试开始
如今的企业营销决策变革主要在两个维度发生改变:
左手是市场导向型战略,即公司业务的市场增长逻辑、增长区间在什么地方,偏宏观战略;
右手是消费者行为研究,即如何深入理解消费者偏好、促进精准营销转化,偏微观策略。
今天,数据驱动决策的理念、思维、工具都在革新左右手的增长逻辑。重要的是如何决策,即大数据应该走向决策数据。
过去企业经常谈以消费者为中心,很容易陷入空洞的口号,主要过于依赖员工的理解和执行,造成落地难度很大。如今,大量数字化触点的建设,使多维度数据的可获得性大大提高,带来了全新的连接关系。无论是 Martech 的前链路还是后链路营销,这种连接直接促成了互动行为的数字化,一个最终的消费决策被分割成无数微观的阶段性消费者行为切面。而 AB 测试,就是对消费者行为切片进行量化反馈的过程,扮演着大数据向决策数据转变的催化剂作用,也是数据决策的重要抓手。
早在 2007 年,谷歌就建设了完善的 AB 测试系统,随后实验的频率越来越高。
- 现在谷歌每个月都会上线几百个 AB 测试,谷歌通过这些实验可获得全年 20%+ 的增长,增加超过 10 亿美元的营收;
- Facebook 的 CEO 会亲自参与众多的 AB 测试;
- Linkedin 把 AB 测试作为产品研发上线过程中的基本流程;
- 国内大厂中,小米是 AB 测试的先驱者,从 2010 年 8 月 16 日首个 MIUI 内测版发布,就开始进行系统性的 AB 测试,测出天使米粉对哪些功能更感兴趣并进行快速迭代,每个员工、米粉都积极参与到 AB 测试,并形成了小米“参与感”的文化底蕴;
- 字节跳动自 2012 年成立以来,字节跳动先后将 AB 测试应用在产品命名、交互设计、推荐算法、用户增长、广告优化和市场活动等方方面面的决策中。
AB 测试背后,折射出的是企业“让数据和事实说话”、“避免拍脑门”的决策机制。AB 测试堪称是成功企业留住客户、进行商业变现的奠基石。
在消费品行业,AB 测试同样大有所为。比如元气森林正是通过 AB 测试,在气泡水这一细分赛道里突围而出。首先进行口味测试,测出天使用户对哪一种口味更感兴趣;再进行电商测试,看看验证型的产品在电商渠道的情况,是否达到规模化标准,再去进行线下铺开;在门店测试中,通过各种 IOT 设备监测消费者的互动和购买行为,调整选品和陈列策略,最终完成整个 DTC 测试。这套测试方法,本质上就是推动从大数据到决策数据转变的过程。
很多人一直把 AB 测试理解成一个技术行为,其实它是一种业务经营行为,而且是一种科学的经营行为。我们不应当仅仅拿它作为一个工具,而应当将它变成一种思维,一种方法论,一种企业经营策略。
AB 测试有很大的作用,但能用好 AB 测试的公司并不多,本文立意是 Martech 领域中如何用 AB 测试理解微观层面的消费者偏好并进行精准营销自动化,以及阐释 AB 测试的底层逻辑。
一、什么是 AB 测试
简单来说,当企业面临决策的不确定时,可以从整体流量中划出小部分流量,随机、均匀地分出两组,分别由两组用户进行测试,最终通过实验数据对比确定更优方案。实证科学本质就是一种 AB 测试,将实验对象分组、比较、校准,形成可复制的经验。用胡适的话,“大胆假设、小心求证”,而今由于行为数据的丰富,AB 测试成为 Martech 的底牌之一。
从心理上,消费者往往不知道自己要什么,但从行为上,我们能知道他们的真实选择偏好,企业也由此可以动态做出决策。通过 AB 测试,确保每个决策都为企业带来正向收益,实现复利效应,带动持续增长。
二、解释几个 AB 测试相关术语
1. 流量互斥层
是为了让多个实验能够并行不相互干扰,且都获得足够的流量而研发的流量分层技术。把总体流量“复制”无数遍,形成无数个流量层,让总体流量可以被无数次复用,从而提高实验效率。各层之间的流量是正交的,你可以简单理解为:在流量层选择正确的前提下,流量经过科学的分配,可以保证各实验的结果不会受到其他层实验的干扰。
2. 流量正交实验
每个独立实验为一层,一份流量穿越每层实验时,都会随机打散再重组,保证每层流量数量相同。
举个例子。假设现在有 2 个实验。
- 实验 A(实验组标记为 A1,对照组标记为 A2)分布于实验层 1,取用该层 100% 的流量;
- 实验 B(实验组标记为 B1,对照组标记为 B2)分布于实验层 2,也取用该层100% 的流量。
(要注意,实验层 1和实验层 2实际上是同一批用户,实验层 2 只是复用了实验层 1 的流量)
- 如果把 A1 组的流量分成 2 半,一份放进 B1 组,一份放进 B2 组;
- 再把 A2 组的流量也分成2半,一份放进 B1 组,一份放进 B2 组。
那么两个实验对于流量的调用就会如下图所示。此时实验 A 和实验 B 之间,就形成了流量“正交”。
我们可以发现,因为 A1 组的一半流量在 B1 中,另一半流量在 B2 中,因此即使 A1 的策略会对实验 B 产生影响,那么这种影响也均匀的分布在了实验 B 的两个组之中;在这种情况下,如果 B1 组的指标上涨了,那么就可以排除 B1 是受 A1 影响才形成上涨。这就是流量正交存在的意义。
3. 互斥实验
所有互斥实验使用同一流量层用户,但不共享用户,如果一个用户 / 设备命中了实验 A,就不会命中互斥的其他实验。
4. 实验指标
在开始一个实验时,目的是对比对照组和实验组的某个或者某几个指标。如,分析活动页面主图的点击次数时,需要上报注册的点击事件,然后在 AB 测试中配置指标,即可看到实验中及实验后的指标对比。
5. 流量过滤
对 AB 测试的目标用户增加一些限制条件,规定被实验命中的用户必须符合(或不符合)条件,比如针对某个用户分群,某些用户标签进行过滤,进而精准找到测试目标人群,这种限制条件即“流量过滤”。
6. 白名单用户
在实验正式开启之前,通常需要先选择几名用户进入测试阶段,观察实验是否能够正常获取想要收集的数据,或执行流程是否符合预期。参与这一步的用户被称为“白名单用户”。
7. 置信区间
置信度区间就是用来对一组实验数据的结果进行估计的区间范围。
举个例子,我们现在进行一个实验来体现活动落地页中的图案改变对用户购买率的影响,其中采用了新策略 B 的实验组,购买率提升均值为 5%,置信区间为[1.5%,8.5%]。
怎么理解此处的置信区间呢?由于在 AB 实验中我们采取小流量抽样的方式,样本不能完全代表总体,那么实际上策略 B 如果在总体流量中生效,不见得会获得 5% 的增长。
如果我们设策略 B 在总体流量中推行所导致的真实增长率为 μ,那么在这个案例中,μ 的真实取值会在 [1.5%,8.5%] 之间。
值得注意的是,μ 并不是 100% 概率落在这一区间里,在计算置信区间的过程中,我们会先取一个置信度,计算这一置信度下的置信区间是多少,AB 实验中我们通常计算 95% 置信度下的置信区间。
回到刚刚的例子,我们就可以得知,μ 的真实取值有 95% 的可能落在 [1.5%,8.5%] 之间。
8. 置信度
在实际操作中,会遇到实验结论显示新策略有用,但实际上全量发布新策略后没用。
在统计学中称为第一类错误,用显著性水平 ( α ) 来描述实验者范这一类错误的概率,置信度 = 1 – α,当某个实验结论显著性指标 α < 5%,则置信度 > 95%,我们认为这个实验结论指标大概率是可信的,系统有超过 95% 的信心确认这个实验结论是准确的。
在 AB 测试中,由于只能抽取流量做小样本实验。样本流量的分布与总体流量不会完全一致,这就导致没有一个实验结果可以 100% 准确,即使数据涨了,也可能仅仅由抽样误差造成,跟我们采取策略无关。
在统计学中,置信度的存在就是为了描述实验结果的可信度。
9. 校验灵敏度 ( MDE )
实际操作中,会遇到新策略其实有效,但实验没能检测出来。
在统计学中称为第二类错误,用 β 来描述实验者范这一类错误的概率,统计功效 = 1 – β,统计功效表示如果新策略是有效的,有多大概率在实验中能够检测出来。通常认为统计功效 > 80% 为有效检测 。
通过设置 MDE,并与新策略的目标提升率进行比较,来避免实验在灵敏度不足的情况下被过早做出非显著结论而结束,错失有潜力的新策略。MDE 越小,意味着要求测试的灵敏度越高,所需的样本量也越大。
如果 MDE 设置过于精细,不仅会浪费不必要的流量,同时实际收益可能不能弥补新策略的研发和推广成本。灵敏度不足,比如预期 1% 就达标,但实验灵敏度仅能检测 5% 及以上,会导致错失有潜力的新策略。
三、AB测试的魅力何在
AB 测试究竟有什么魅力,能够为企业带来如此大的收益,被各大互联网公司视为法宝。
一方面 AB 测试只用整体流量中的一小部分进行实验,避免了一个错误决策对整个公司用户的严重影响,另一方面又能够依靠数据对每个特征进行影响力量化,使得我们可以以较小的风险对新特性进行评估,积极试错积累经验,并且这个方法有能力排除其他因素(如同时开发的其他特性、时间因素等)的干扰;除了“好’或者‘不好“,也能够给出定量的结果。
之所以 AB 测试能够用小部分流量进行抽样,并量化误差,得到相对准确的预测结论,根源在于中心极限定理的存在。中心极限定理定告诉我们,如果我们从总体流量里不断抽取样本,做无数次小流量实验,这无数次抽样所观测到的均值,近似呈现正态分布。
这个分布以真值(所有抽样的平均值) 为中心,抽样均值越接近真值,出现的概率就越大;反之均值越偏离真值,出现的概率就越小。
对于一个待投放的营销素材而言,假设以消费者点击率为实验指标,只要小流量抽样次数足够多,可以得到一个正态分布图,抽样次数越多,正态分布均值越趋近于真实的消费者点击率。
开启实验前,哪一个版本表现更好往往是未知的。传统的 AB 测试依赖于统计显著性的经典假设检验,为对照版本和实验版本分配定额流量,一般不允许在实验期间变更每个版本的流量,因此该类实验的缺陷比较明显,即便已发现实验版本明显优于对照版本,实验期间我们还需要在对照版本上继续花费流量直至实验结束,以便获得具有统计学意义的结论。
但是在广告投放、营销活动推送等场景下,运营人员期望尽快获得最大收益。此种场景就需要考虑如何在快速发现并收敛到高价值素材和不放弃对新素材的尝试这两者之间取得平衡( EE 问题),以追求收益的最大化。
Martech 营销自动化就是为了解决这类实验场景,依托多臂老虎机(MAB)强化学习手段,通过概率分布的思想找到最可能成为最优解的实验版本,快速加大分配流量,并实时计算实验收益,达到收益最大化。
应用举例
某公司准备进行一次营销活动,通过营销自动化 AB 测试工具进行一次实验,选出最佳素材,流程如下:
- 设计团队准备 3 个素材,交付到运营投放团队;
2. 在营销自动化平台开启 AB 测试,按照目标人群标签过滤出 9000 人流量;配置实验 1、实验 2、实验 3,分别对应素材 1、素材 2、素材 3,初始流量比例各占 1/3;开启互斥实验;定义实验指标为用户点击率,记录每个用户看到素材后的点击行为;
3. 实时获取数据,每隔 30 s 统计一次实验效果;
4. 采用基于贝叶斯推断的汤普森采样,使用 Beta 分布对用户点击率的概率分布进行绘制,它有两个正值参数,α 和 β,决定了概率分布的形状,两个参数默认值都为 1。
Beta 分布的均值是:
Beta 分布的方差是:
使用 Python matlab 模拟不同 α 和 β 情况下 Beta 分布(如下图),可以得到两个重要信息:
1)α / (α + β) 越大,概率密度分布的中心位置越靠近 1,依据此概率分布产生的随机数更大概率靠近 1,反之越靠近 0;
2)α + β 越大,分布越窄,集中度越高,这样产生的随机数更接近中心位置,从方差公式上能看出来。
依据以上特性,结合本次实验指标,定义 α 为素材被用户点击次数,β 为素材未被用户点击素材次数。举例来说,当某个用户看到素材 1 时,如果他点击了素材,则 α += 1,否则,β + = 1。
经过 30 s,进行实验效果统计时,发现素材 1 的 α = 170,β = 82,素材 2 的 α = 82,β =170,素材 3 的 α = 30,β = 20,则 3 个素材点击率的概率分布图如下:
通过分布图可以看到 素材 1 的点击率平均值 0.674,素材 2 的点击率平均值 0.325,素材 3 的点击率平均值 0.6。可以看到在抽样流量下素材 1 的效果明显好于素材 2,但素材 3 由于命中的流量比较少,概率分布图的方差很大,此时如果直接选择素材 1 则有可能失去一次对更好素材的探索机会。
这时汤普森采样会从各素材的 Beta 分布中随机获取一个值,并选出随机值最大的素材进行流量分配。比如素材 1 随机得到 0.71,素材 2 随机得到 0.286,素材 3 随机得到 0.73,此时下一个用户就会命中素材 3,并根据用户点击数据的真实反馈,重绘素材 3 的 Beta 分布。选择汤普森采样的好处就是平衡了 EE ( Exploration& Exploitation) 的问题,总体上点击率越高,获得的流量越大,同时兼顾了探索新素材的可能;
5. 具有一定初始流量后,各素材绘制的 Beta 分布图逐渐产生差异,使用汤普森采样,平均值靠近 1 的素材会更容易获得新流量,而命中次数比较少的素材,因为集中度低,也有一定概率获得流量。随着真实流量的增加,最终收敛到某个最优素材;
6. 蒙特卡洛模拟是在已知各素材 Beta 分布的基础上,多次从各素材随机抽取,然后经验地计算出每一个素材的点击率,此方法可以模拟海量流量,最大趋近于全量发布方案效果。当真实流量放大到一定程度,与模拟收益相符最优素材胜出,实验收敛并结束。
三、总结
Martech 营销自动化工具突出利用算法和大数据进行 AB 测试并自动化决策和执行,取得收益最大化。这与传统 AB 测试最大区别是时间短、灵活度高,在广告投放、营销活动推送等场景下,运营人员可以尝试更多营销方案同时尽快收敛最大收益方案,这平衡了 EE ( Exploration& Exploitation) 问题。
传统 AB 测试,长时间稳定流量观察数据,得到具有统计意义的结论。
营销自动化 AB 测试,根据实时数据反馈,流量倾斜到优质内容,迅速收敛。