虽然AB实验是一种很直接、公正又简单的产品验证方式,能够协助 PM 们通过数据进行决策,但在现实中其实「无法做 A/B Test」的情况又蛮常见,在这些情况下我们该怎么依然有凭有据的做出合理产品决策呢?
我整理了一些AB实验以外的产品验证方法或流程,希望能帮助大家通过数据决策。
01 哪些状况不适合AB实验?遇到这些状况该怎么办?
除了公司没资源没有实验架构、老板不给时间这些原因以外,这四种情况也不太适合做AB实验,以下随场景附上推荐的解决方案:
当产品每天只有千位甚至百位活跃用户,A/B Test 分组下去一组只剩几百甚至几十人,这样的情况通常不适合做那种改一点按钮颜色、改一点文字翻译的小步快跑 A/B Test,因为如同大家所知,样本太少时并不容易达成统计上的显著。
一个 A/B Test 若样本数多、产品改动的影响大、时间跑得长,就越容易达成统计上显著。所以其实低流量也不是什么问题,只是那些线上样本计算机会跟你说「你的实验只要跑 5487 天就会有显著结果哦!」。
现实中我们当然不可能乖乖等 5487 天,通常都希望在几周内可以看到结果,才好做下一步的产品规划,所以这个时候我们可以尽量把产品改动的规模扩大做大,放弃小步快跑来个大步跑,若带来的影响够大,自然也会更容易达成统计上的显著。你可以试试这样做:
Step 1:为了降低大改带来的风险,执行扎实彻底的用户研究。Step 2:规划大改动(例如整页信息架构调整,前后流程调整等等)。Step 3:改动上线后通过其他反馈工具来做验证,例如使用 NPS 工具,在产品内嵌入简单的问卷表单,与客服协作获得反馈等。还是可以试着跑跑看 A/B Test,如果效果不错影响面够大也是可以获得统计上显著的。Step 4:若还是想得到量化信息,可以考虑在未来产品流量提升之后,进行 Blackout Experiment 来观测。所谓 Blackout,就是将某个已上线的改动或功能在实验中暂时关掉,看看这些改动或功能是否真的有影响。除了这种「扎实版大步跑」以外也有一些其他方法手段,我会在下一大段落中一并分享其他在低流量产品身上也能使用的产品实验设计方法,有兴趣的朋友可以滑动到底下阅读。
当你的产品用户非一般消费者、而是天天要用你的产品工作的「专业使用者」或企业,比如说用 POS 系统点餐的餐厅店员、用饭店管理工具后台确认订房付款状况的饭店柜台等等,他们已经习惯按钮颜色、位置、功能,需要一致的体验,可能也经不起你三天一小改五天一大改、无法预期的产品实验。
推荐方法:利用 Beta program 进行快速回馈与沟通
可以试着和几个关键用户讨论看看他们是否愿意加入「新功能抢先用的」 Beta program,以他们为主要用户研究对象、访谈、规划与开发产品,开发后的新功能与改动再先利用 Beta program 上线,以获取早期回馈。
等到这些功能与改动比较成熟稳定,再开始对其他用户做中大型规模的 A/B Test 来做最后的验证。这样的话就可以降低对用户的干扰程度,也较好对 Beta program 用户们做预期管理。
新产品除了跟流量低的产品有相同问题以外,相较于成熟产品,MVP 和理想的商业模式通常差比较远,产品本身体验和用户真正的需求落差也可能更大,在这个时候若还坚持每次只改动一个变量、慢慢用 A/B Test 当成唯一验证手段,或许也不是最有效率的方式。
在新产品的阶段,基本上和状况一的低流量一样,需要更多市场研究、用户研究、竞品研究等信息来提供洞见,以及通过反馈工具与客服状况来了解上线后的效果。
尤其在 MVP 开发阶段,由于产品根本还没上线也毫无 A/B Test 的可能性,建议安排规律的(每个月或甚至每周)User Testing,利用手边的原型去获得早期回馈再来做产品调整,就不用等到上线之后才崩溃的发现都做得不对。
另外以早期产品来说,除了易用性与功能,也建议要持续验证整个产品的商业模式,打好基础,同时收集能够应用在未来产品路途上的信息。
在大部分情况下,提升易用性、增加便利性还是可以被测量的,但我之前曾遇过一个我真的不知如何测量的状况:我们想改善照片编辑 App 的操作手势,我和设计师在长按、双点击、一长一短点击这种常见手势该搭配什么对应功能之间纠结,长按该把照片往底部推?还是编辑照片?还是拉到最上层?这个其实我到现在还没想到可以跑 A/B Test 的方法(有想法的朋友欢迎跟我分享),因为这件事的验证牵涉到用户手势意图,是数据很难告诉我们的信息。
一般的用户研究会测试五位用户左右,因为根据研究计算,只要测试五位用户就可以看出行为模式、涵盖大部分的痛点。这里我所谓的大样本是指比平常用户研究数量还多两三倍的d研究,之前的经验是我们从咖啡厅、路上、办公室等地对 10–20 位用户做了易用性测试,确实记录每个动作、手势、使用流程与背后的动机和意图,再画成表格比较优缺点。
受测者涵盖你的目标用户区隔询问的方式不带引导性详细记录比较用户的意图以获得最公正的信息。