张一鸣 traditional

AB测试驱动决策模型

产品决策基于数据和实验,不基于直觉——让数据说话,AB测试把'我觉得好'变成'数据证明好'

2 关联 · 2 冲突 · 19 反链 · 3 证据 · 产品迭代 / 功能决策 / 增长策略 / 组织管理
§ 00

"人的直觉是不可靠的,尤其当用户量级到千万/亿级别时。AB测试把'我觉得好'变成'数据证明好'。"

§ 01

决策简报

核心判断

人的直觉在千万/亿级用户面前不可靠。有争议的方案不要辩论——设计 AB 测试,让数据裁决。这把"我觉得好"变成"数据证明好",同时极大缩短决策链路。

推理逻辑

1. 有争议时设计实验而非辩论——辩论赢的是嗓门大的人,AB 测试赢的是用户投票的方案。2. 同时运行多个实验,用数据筛选最优——速度就是竞争力。3. AB 测试结果就是决策依据,不需层层审批——决策链路短是字节迭代速度远超同行的根本原因。4. 警惕局部最优陷阱——AB 测试只能优化已有方向,无法发现全新方向。要对标"理论最优"而非竞品。

关键案例

字节内部 AB 测试平台支持同时运行数千个实验。抖音的全屏设计、音乐配合方式、推荐算法的每个参数都经过大量 AB 测试验证,而非某个人"拍脑袋"决定。

适用场景

团队对功能方案有分歧、新功能效果不确定、需要提升产品迭代速度、产品经理和工程师意见不一致时。

不适用场景

产品0→1阶段数据量不足,需要直觉和品味驱动(此时用张小龙的人性洞察模型);AB 测试显示短期指标提升但可能伤害产品长期调性时,数据要让位于原则。

§ 02

决策逻辑

1

有争议的方案不要辩论——设计AB测试,让数据说话

2

同时运行多个实验,用数据筛选最优方案

3

决策链路短——AB测试结果就是决策依据,不需要层层审批

4

每个功能上线前都要有可测量的假设和成功标准

5

警惕局部最优陷阱——AB测试只能优化已有方向,无法发现全新方向

6

对标理论最优而非竞品——思考"理论上最好的方案是什么"

§ 03

协作模型

§ 04

冲突模型

人性洞察驱动模型 冲突
张小龙

冲突场景: 产品早期(0→1)时数据量不足以支撑AB测试,需要直觉驱动

化解方案: 0→1阶段靠直觉和品味,1→N阶段靠数据和实验。关键是判断产品在哪个阶段

克制设计模型 冲突
张小龙

冲突场景: AB测试显示某功能短期提升指标,但可能伤害产品长期调性

化解方案: AB测试优化的是可测量指标,但品牌调性和用户信任是不可测量的。需要在数据和原则之间权衡

§ 05

证据链

案例 (2)

字节内部有强大的AB测试平台,支持同时运行数千个实验。抖音的全屏设计、音乐配合方式、推荐算法的每个参数调整都经过大量AB测试。

— 字节跳动核心工作方法 · 2018

字节的产品迭代速度远超同行,因为决策链路短——AB测试结果就是决策依据。

— 字节产品迭代实践 · 2018
语录 (1)

不要盯着竞争对手做了什么就跟着做。要思考在这个领域,理论上最好的解决方案是什么。

— 极客公园访谈 · 2016
§ 07

触发场景

团队对功能方案有分歧新功能上线后效果不确定要在多个方案中做选择产品迭代速度太慢产品经理和工程师/老板意见不一致