如何用“迭代思维”提升非营利项目评估？-虎嗅网

本文来自微信公众号：斯坦福社会创新评论，作者：SSIR中文版

图片来源：Unsplash/费利佩·夏罗利（Feliphe Schiarolli）

在中低收入国家，许多非营利组织面临一个严峻的矛盾：一方面，紧迫的社会问题要求项目快速迭代优化；另一方面，这些组织却往往需要等待数年，才能获得外部评估结果。即使它们进行严谨评估，也多是独立的一次性研究（one-off studies），难以跟上项目实施环境的动态变化，亦无法为实时决策提供参考。

这种问题的紧迫性与证据生成速度之间的张力，对许多项目实施者而言并不陌生。我们的组织“青年影响力”（Youth Impact）曾在博茨瓦纳（Botswana）围绕一项艾滋病与青少年早孕预防项目开展了首次随机对照试验（Randomized Controlled Trial，RCT）。研究结果表明，由年龄相近的朋辈教育者（near-peer educators）开展干预，能够有效改变青少年的高风险行为，而公立学校教师等其他信息传播者的干预则效果不佳。然而，公共部门的合作伙伴仍需就项目成本效益、执行差异以及方案优化等问题获得持续的解答。如果评估周期动辄长达数年，往往意味着会错失影响项目设计及后续公共决策的最佳时机。

因此，我们需要一种既能保持严谨标准，又能适配实施节奏的方法。科技行业提供了一个范例：仅微软一家公司每年就开展约10万次A/B测试（A/B test）以持续优化产品。谷歌邮箱曾通过测试不同的广告链接颜色，每年为公司创收2亿美元。这些案例充分证明，经过严谨测试的细微调整能够产生超乎预期的影响力。

尽管社会影响力项目存在其独特的复杂性，但我们发现，类似方法论亦能适用于社会领域。迭代式A/B测试（Iterative A/B testing）通过随机分组，对多种项目方案进行比较，不仅能解答传统随机对照试验所关注的整体有效性问题，还能回应关于效率与成本效益的相关疑问。

此外，A/B测试仅需数周或数月就能产出因果证据（causal evidence），而传统随机对照试验往往需要耗费数年时间。正因如此，迭代式A/B测试在释放社会影响力方面发挥着关键作用：它能够快速生成因果证据，助力项目在实施与规模化过程中持续优化。

“青年影响力”已实现从2014年开展一项随机对照试验，到2025年累计进行75次以上随机测试（包括随机对照试验与A/B测试）的跨越，且这一数字仍在持续增长。我们总结出一个让A/B测试能充分契合实施需求的“三R原则”。

严谨性（Rigorous）：A/B测试通过随机分组生成因果证据，其严谨程度与随机对照试验相当。传统随机对照试验主要用于验证项目可行性，如回答“项目是否有效”这一问题；而迭代式A/B测试更关注优化过程中的关键问题，例如“如何让项目降本增效”。这类问题以效率与成本效益为核心，服务于项目在规模化过程中的不断优化。正因如此，A/B测试通常比较的是同一项目的不同优化版本，而非简单设置干预组与对照组。由于所有参与者都会接受项目干预（只是版本不同），证据生成与项目规模化推进得以同步进行。

快速性（Rapid）：A/B测试能够在数周或数月内产出结果，而非像传统方法那样耗费数年，这使得在项目实施周期内进行实时调整成为可能。这种速度依赖于“黄金指标”的选择——即那些足以支撑关键决策、同时又能被快速测量的结果指标。

在教育项目中，这类指标可能是基础读写与计算能力的达标情况；在健康项目中，则可能是相关知识掌握程度或行为变化的测量。正是这种快速反馈机制，使A/B测试在项目规模化推进阶段尤为重要：成本效益的小幅优化将在成千上万的受益群体中产生叠加效应；而如果需要等待数年才能获得证据，往往就会错失影响项目设计的关键窗口。

常态化（Regular）：迭代式A/B测试并非一次性的评估事件，而是一套嵌入每个项目实施周期、持续测试项目调整方案的工作流程。通过这种方式，组织可以建立起一个连续的反馈循环，使每一轮测试的结果都为下一轮提供依据，进而实现学习效率的逐步提升。以某辅导项目为例，我们先后开展了12轮连续的A/B测试，其中有7轮实现了效率提升，单次改进幅度在5%至30%之间。较为显著的效率增益主要来自降低成本的方案调整，以及对照护者参与方式的优化。

这种稳定而持续的测试节奏，有助于推动组织文化的转变：评估不再被视为独立于项目之外的阶段性任务，而是被理解为项目运行中不可或缺的迭代式学习过程。项目成效既可能来自个别测试中的突破性进展，也来源于多轮迭代中看似微小、却不断累积的优化效果——这种累积效应通常在完成5至10轮迭代后逐渐显现。

许多组织都曾疑惑自身是否具备开展A/B测试的能力。要启动这项工作，关键在于拥有开展试验的意愿、完善的数据收集体系，以及秉持以实证支撑决策的理念。“青年影响力”从简单的模式起步，逐步搭建起更为健全的体系。我们的合作伙伴——从小型非营利组织到大型国际机构——大多沿着相似的路径前行，并结合自身的具体场景与能力，对A/B测试进行了本土化调整。在此，我们基于一套深入的方法工具，总结出若干实践要点，供其他组织参考，帮助其将A/B测试逐步融入监测与评估工作。

搭建完善数据体系

筑牢测试运行根基

由于A/B测试是一种持续运行的过程，其所使用的数据通常来自组织内部，并已纳入日常的项目监测之中。因此，一套具备A/B测试条件的监测体系，应当具备三项核心特征：适配的指标、高频的数据收集，以及足以检测出A/B方案间显著差异的样本量。

为了支持能产生实质影响且高效的决策，项目需要识别一个“黄金指标”——即变化足够快、同时又足够重要的指标。这类指标理想情况下应能在数周或数月内（而非数年）反映项目进展，并且在项目的“变革理论”（theory of change）中处于足够“远后端”的位置（即更接近项目希望实现的关键社会结果）。也就是说，当这一指标改善时，项目真正关心的社会结果往往也会随之改善。

以“适龄施教”（TaRL）这一教育项目为例，“青年影响力”在四个国家支持该项目时，将基础读写与计算能力作为黄金指标。该指标直接衡量项目的核心目标——儿童学习成效，能够在一个学期内对实施层面的调整做出响应，并可通过“全民基础教育状况调查”（ASER）等简便的学习测评工具进行评估。与“受训教师数量”等投入性指标，或“考试通过率”等远期结果指标相比，基础学习能力恰好处于“足够快速”与“足够重要”之间的最佳平衡点，因而最能为决策提供有效支撑。

并非所有项目一开始就能找到处于这一“黄金区间”的指标。以我们开展的艾滋病与青少年早孕预防项目“选择计划”（Choices）为例，高危行为相关知识的掌握情况相对容易测量，但它与远期实际影响的关联性并不明确。此外，艾滋病感染率和早孕率等结果性指标发生率较低、测量成本高昂，也难以纳入常规监测。

在这种情况下，组织可以投入资源，逐步建立适合自身的“黄金指标”，或采用分层式的快速测试路径：先使用“青铜指标”（如艾滋病风险认知水平），再过渡到“白银指标”（如恋爱行为的改变），并随着时间推移，持续验证这些指标的变化是否最终转化为实质性影响（如艾滋病感染率或早孕率的下降）。

一旦组织确定了A/B测试的核心指标，建立一套在规模与频率上都足以支撑决策的数据收集系统就变得至关重要。一般而言，A/B测试在集群随机分配（如以学校或班级为单位）时，至少需要60至80个抽样单元；若采用个体层面的随机分配，则通常需要1200名以上的个体样本，才能识别项目微小调整所带来的效果差异。

相关数据应以较高频率收集，理想状态下为每月一次，或每个项目周期一次（例如教育类项目可按学期收集），并能够被快速处理，以支持实时决策。随着组织服务规模的扩大，覆盖更多人群也意味着能够在不同地区和项目之间开展更多A/B测试，从而积累更多经验，实现成本效益的提升。

小起步，大收获

初次引入A/B测试的组织，往往从一开始就希望产出具有转型性的洞见。但根据我们的经验，培养组织开展A/B测试的能力与信心，最稳妥的路径是从“能力培养型”测试入手，这类测试的重点在于掌握根本的学习方法论，而非执着于打造一个完美的首次测试。迭代式A/B测试的一大优势在于，组织拥有大量优化测试设计的空间。因此，首次测试更像是在打通流程、做好铺垫，待整个系统全面运转，突破性的洞见自然会随之出现。

例如，我们在“适龄施教”项目中启动A/B测试时，先从一个简单的调整入手，即在课堂开始和结束时加入互动小游戏与唱歌活动。这项易于实施、低成本的微调帮助我们顺利开启了测试流程。随后，我们进一步探究了在“适龄施教”课程中该如何对学生进行细化分组（例如，依据运算、数字识别等多项学习能力，在班级内划分不同小组），并为教师导师引入了结构化的课堂观察指南。

我们的合作伙伴——纳米比亚的猫鼬学习组织（Meerkat Learning）、孟加拉国救助儿童会（Save the Children Bangladesh）以及乌干达的共建明天组织（Tomorrow），均采用了相同的方法着手解决日益复杂的问题。

例如，猫鼬学习组织在支持纳米比亚政府推广“适龄施教”项目时，最早的测试非常简单，只是看看电话随访是否能提高教师的数据提交率。随着测试不断深入，他们又尝试用电话辅导替代原有的实地校访模式。事实证明，这一改变在规模化运营后显著降低了成本，辅导费用减少了三分之一以上。

孟加拉国救助儿童会和乌干达共建明天组织的路径也类似，都是从成本低、易实施的尝试入手，比如向家长和教师发送短信，以提升参与度。随着测试不断推进，孟加拉国救助儿童会进一步比较了数学与读写课程的不同开设顺序，探索哪一门学科应当优先授课；共建明天组织则将重点放在教师辅导安排上，逐步优化辅导的频次。这些实践表明，只要将学习嵌入日常运营，通过一系列循序渐进的测试，组织完全可以从简单尝试起步，并随时间推移逐步孕育出具有突破性的创新。

当组织逐渐形成稳定的A/B测试节奏后，便能从对项目的微小调整逐步迈向突破性转型。以“互联教育”（ConnectEd）为例，这是一个采用“适龄施教”靶向教学理念的电话辅导项目。我们的测试从一个非常具体、简单的问题开始：与每周一次相比，每周两次发送短信提醒，是否能改善项目成效？结果显示，这一调整并未带来明显变化，于是我们转而探索其他方向。

随着测试经验的积累，问题的复杂性与操作难度也相应增加。其中一个关键尝试是：如果让照护者更多参与到辅导过程中，学习效果会不会更好？结果显示，这次简单调整几乎不增加成本，却让项目影响力翻倍，也成为全球教育领域中最具成本效益的调整之一。基于这一突破性发现，团队进一步测试了不同的照护者参与方式，寻找最有效的实践路径。

迭代，并持续学习

随着学习议程的逐步推进，A/B测试通常可分为两大类：降本测试（cost-reducing tests）与增效测试（effectiveness-enhancing tests）。增效测试一般会为项目新增某项要素，旨在以较低的边际成本提升项目成效。而降本测试则与之相反，这类测试会删减或简化项目的部分组件以降低成本，其核心目标是维持现有成效而非进一步提升。在社会领域，降本测试的应用目前仍较为少见，但我们发现，这类测试在识别效率改进空间方面，往往有着较高的成功率。

这种测试分类体系旨在兼顾规模化发展的两大核心要素——成效与成本，实现同步优化。换言之，通过迭代测试，项目既能降低成本，又能提升成效。

随着时间推移，A/B测试会从单一的操作微调，逐步发展为持续测试模式，进而推动项目实现累积性转型与持续优化。采用组合式测试策略，组织也无需将过高期待压在单次测试之上，而是能够接受这样一种现实：多数单项测试的效果有限，甚至并不显著。多项微小优化举措所产生的累积效应，往往会超越任何一项大型干预措施带来的影响力。

在推动学习议程的过程中，团队往往会从简单的测试问题出发，逐渐演变为更具实质影响的核心问题，而这一转变依赖于不断对问题本身进行打磨和调整。我们的经验表明，好的问题通常具备以下五个特征：

•实施可行性：需评估替代方案在成本和执行上的可行性，确保其顺利融入日常运营流程。

•降本或增效：测试方案应明确聚焦于降本或增效的目标。

•决策优先级：替代方案所带来的调整，应对决策者具有实际意义和参考价值。

•实施者主导：最贴近项目现场、直接参与实施的一线人员，往往能提供最具实践价值的优化方案。

•初始不确定性：当团队对某个问题抱有真实的好奇心时，测试结果不仅更具吸引力，还能更直接地支撑决策。

A/B测试从根本上改变了组织的学习方式与运作模式。2014年，“青年影响力”的领导团队在做出项目决策前，往往需要等待数年的随机对照试验结果。如今，同一支团队在每学期都会根据多项测试的证据，实时调整教师培训方式、优化课堂内容，以及改进家长参与策略。项目人员不再将评估视为外部研究人员的专属工作，而是主动提出测试方案、解读研究结果，并亲自落实各项优化调整。

越来越多活跃于社会领域的组织，正在加入A/B测试的实践行列。除前文提及的救助儿童会、猫鼬学习组织和共建明天组织之外，贫困行动实验室（Innovations for Poverty Action，IPA）已设立“适配型证据”团队；创新数据洞察机构（IDinsight）与能动基金（Agency Fund）近期也联合开发了工具，帮助以技术为导向的执行组织实现A/B测试流程的自动化。

与此同时，我们正与穆拉戈基金会（Mulago Foundation）投资组合中的多家机构展开合作。作为迭代式A/B测试理念的早期倡导者，穆拉戈基金会长期支持以学习驱动改进的实践。此外，我们也与雅各布斯基金会（Jacobs Foundation）、能动基金，以及全球教育成效中心网络（What Works Hub for Global Education）等迭代式学习领域的重要网络协作，共同助力A/B测试实践在社会领域落地生根。诸多基金会已对这些方法表现出浓厚兴趣，其中包括盖茨基金会（Gates Foundation）、马歇尔基金会（Marshall Foundation）、针鼬教育捐赠机构（Echidna Giving）、普雷维尔基金（Prevail Fund）等。将迭代式学习的工具和方法与基于信任和数据的慈善相结合，有望形成强大的合力，共同推动持续学习与优化。

在中低收入国家，许多组织面临需求远超资源的挑战，A/B测试为更快弥合证据鸿沟提供了一条可行路径。与此同时，项目在规模过程中往往会出现所谓的“效能衰减”（voltage drop，即随着覆盖范围扩大，实际成效反而下降）现象。A/B测试或许有助于对抗这一趋势。通过在规模化过程中持续开展试验，组织可以更清楚地识别：哪些项目要素值得强化以推动更大成效，哪些成本则可以在不损害效果的前提下被削减。那些坚持快速、严谨且常态化测试的组织，不仅能够有效避免“效能衰减”，甚至有可能将其逆转，在规模化发展的同时，持续、显著地提升项目的成本效益。

诺姆·安格里斯特是“青年影响力”组织的联合创始人，同时担任牛津大学布拉瓦尼克政府学院全球教育成效推广中心学术主任。

阿曼达·比蒂是“青年影响力”组织的首席研究员。

克莱尔·卡伦是“青年影响力”组织的研究主管。

滕德凯·穆科伊·恩夸内是“青年影响力”组织“适龄施教”的项目经理。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

如何用“迭代思维”提升非营利项目评估？

大 家 都 在 搜

大家都在搜