You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

58 lines
7.7 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 34 | A/B测试与灰度发布必知必会
在网站和App的产品设计中经常会遇到关于哪种产品设计方案更优的思考和讨论按钮大一点好还是小一点好页面复杂一点好还是简单一点好这种蓝色好还是另一种蓝色好新的推荐算法是不是真的效果好…这种讨论会出现在运营人员和产品经理之间也会出现在产品经理和工程师之间有时候甚至会出现在公司最高层成为公司生死存亡的战略决策。
在Facebook的发展历史上曾经多次试图对首页进行重大改版甚至有时候是扎克伯格亲自发起的改版方案但是最终所有的重大改版方案都被放弃了多年来Facebook基本保持了一贯的首页布局和风格。
相对应的是一直被认为抄袭Facebook的人人网在Facebook多次改版举棋不定的时候毅然进行了重大的首页改版摆脱了长期被诟病的抄袭指责。但是讽刺的是事后回头再看伴随着人人网改版的是用户的快速流失并最后导致了人人网的没落而Facebook的守旧却保证了Facebook的持续发展。
让Facebook放弃改版决定的正是Facebook的A/B测试。Facebook开发出新的首页布局版本后并没有立即向所有用户发布而是随机选择了向大约1%的用户发布即这1%的用户看到的首页是新版首页,而其他用户看到的还是原来的首页。过一段时间后观察两部分用户的数据指标,看新版本的数据指标是否好于旧版本。
事实上Facebook观察到的结果可不乐观新版本的用户数据指标呈下跌状态。扎克伯格不甘心要求继续放大新版测试用户的比例运营团队一度将新版测试用户的比例放大到16%,但是数据显示新版并不受用户欢迎,数据指标很糟糕。最后扎克伯格决定放弃新版,首页维持原来布局。
A/B测试是大型互联网应用的常用手段。如果说设计是主观的那么数据是客观的与其争执哪种设计更好、哪种方案更受用户欢迎不如通过A/B测试让数据说话。如果人人网当初认真做A/B测试也许不会贸然改版据说今日头条为了论证两条新闻之间的分割究竟应该用多宽的距离同样是做了数百组A/B测试。
所以A/B测试是更精细化的数据运营手段通过A/B测试实现数据驱动运营驱动产品设计是大数据从幕后走到台前的重要一步。
## A/B测试的过程
A/B测试将每一次测试当作一个实验。通过A/B测试系统的配置将用户随机分成两组或者多组每组用户访问不同版本的页面或者执行不同的处理逻辑即运行实验。通常将原来产品特性当作一组即原始组新开发的产品特性当作另一组即测试组。
经过一段时间几天甚至几周以后对A/B测试实验进行分析观察两组用户的数据指标使用新特性的测试组是否好于作为对比的原始组如果效果比较好那么这个新开发的特性就会在下次产品发布的时候正式发布出去供所有用户使用如果效果不好这个特性就会被放弃实验结束。
![](https://static001.geekbang.org/resource/image/14/98/143f62d32673e1a633d2441969c41c98.png)
对于一个大型网站通常都会开发很多新产品特性其中很多特性需要进行A/B测试所以在进行流量分配的时候每个特性只会分配到比较小的一个流量进行测试比如1%。但是由于大型网站总用户量比较大即使是1%的用户实验得到的数据也具有代表性了。Facebook拥有几十亿用户如果A/B测试的新特性对用户不友好那么即使只测试1%的用户也有几千万用户受到影响。所以在进行A/B测试时对实验流量和特性的选择也要谨慎对待。
## A/B测试的系统架构
A/B测试系统最重要的是能够根据用户ID或者设备ID将实验配置参数分发给应用程序应用程序根据配置参数决定给用户展示的界面和执行的业务逻辑如下图。
![](https://static001.geekbang.org/resource/image/b2/45/b22e091c7d4ee1572703dc740b89d245.png)
在实验管理模块里进行用户分组比如测试组、原始组并指定每个分组用户占总用户的百分比流量分配模块根据某种Hash算法将用户设备分配到某个实验组中一个实验可以有多个参数每个组有不同的参数值。
移动App在启动后定时和A/B测试系统通信根据自身用户ID或者设备ID获取自己参与的A/B测试实验的配置项根据配置项执行不同的代码体验不同的应用特性。应用服务器和A/B测试系统在同一个数据中心获取实验配置的方式可以更灵活。
移动App和应用服务器上报实验数据其实就是传统的数据采集但是在有A/B测试的情况下数据采集上报的时候需要将A/B测试实验ID和分组ID也上报然后在数据分析的时候才能够将同一个实验的不同分组数据分别统计得到A/B测试的实验数据报告。
## 灰度发布
经过A/B测试验证过的功能特性就可以发布到正式的产品版本中向所有用户开放。但是有时候在A/B测试中表现不错的特性正式版本发布后效果却不好。此外A/B测试的时候每个功能都应该是独立正交正式发布的时候所有的特性都会在同一个版本中一起发布这些特性之间可能会有某种冲突导致发布后的数据不理想。
解决这些问题的手段是灰度发布,即不是一次将新版本发布给全部用户,而是一批一批逐渐发布给用户。在这个过程中,监控产品的各项数据指标,看是否符合预期,如果数据表现不理想,就停止灰度发布,甚至进行灰度回滚,让所有用户都恢复到以前的版本,进一步观察分析数据指标。
灰度发布系统可以用A/B测试系统来承担创建一个名叫灰度发布的实验即可这个实验包含这次要发布的所有特性的参数然后逐步增加测试组的用户数量直到占比达到总用户量的100%,即为灰度发布完成。
灰度发布的过程也叫作灰度放量灰度放量是一种谨慎的产品运营手段。对于Android移动App产品而言因为国内存在很多个应用下载市场所以即使没有A/B测试系统也可以利用应用市场实现灰度发布。即在发布产品新版本的时候不是一次在所有应用市场同时发布而是有选择地逐个市场发布。每发布一批市场观察几天数据指标如果没有问题继续发布下一批市场。
## 小结
A/B测试的目的依然是为了数据分析因此通常被当作大数据平台的一个部分由大数据平台团队主导联合业务开发团队和大数据分析团队合作开发A/B测试系统。A/B测试系统囊括了前端业务埋点、后端数据采集与存储、大数据计算与分析、后台运营管理、运维发布管理等一个互联网企业几乎全部的技术业务体系因此开发A/B测试系统有一定难度。但是一个良好运行的A/B测试系统对企业的价值也是极大的甚至可以支撑起整个公司的运营管理我们下期会详细讨论。
## 思考题
A/B测试需要在前端App根据实验分组展示不同界面、运行不同业务逻辑你有没有比较好的设计方案或者技术架构可以更灵活、对应用更少侵入地实现这一功能
欢迎你点击“请朋友读”,把今天的文章分享给好友。也欢迎你写下自己的思考或疑问,与我和其他同学一起讨论。