扫码打开虎嗅APP
本文来自微信公众号:混沌学园(ID:hundun-university),作者:赵滢 ,受访者:丹尼尔・卡尼曼 诺贝尔、奥利维耶•西博尼 ,题图来自:unsplash
一、噪声和偏差
混沌君:卡尼曼教授,您在热销作品《思考,快与慢》中,讨论了偏差(bias),这本书引起了人类对自身决策方式的反思。近两年您把目光聚焦到了“噪声”(noise)之上,提出偏差和噪声,是影响人类判断的两类错误。那么我们应该怎么理解噪声,它和偏差的区别在哪?
卡尼曼:回答这一问题前,我们需要先定义什么是判断(judgment)。
我们在书中把“判断”描述为一种测量,你的大脑就是用来测量的工具。测量,就是用测量工具给某个对象或者事件在一定标尺上赋值。测量力求准确,但有两种误差会影响其准确性,即偏差和噪声。
举个例子,用一把尺子多次测量一条线段的长度。每次的测量结果可能都不一样。
“偏差”(bias)指的是测量中的平均误差(average error),是你多次测量后得出的平均长度,与实际长度之差。
假设偏差不存在,你会发现,自己仍然无法测出准确长度,数据反而变得忽高忽低,让人迷惑。这些依然残留的误差缺少共性,这种误差就是噪声。噪声(noise)是本该相同的判断中存在的变异性。
同理,偏差和噪声同样会导致我们判断失误。为了让你了解噪声和偏差是如何导致误差的,我们可以玩一个游戏。
用手机掐表,秒表跑一圈是10秒。在不看手机的情况下,让秒表跑5圈。你会发现,手机上记录的每圈都不是10秒,你甚至没法让一个数值重复出现。这种你无法控制的差异,就是噪声存在的例子。
那现在看下你手机里的5个数字,你也可能会看到一些规律。比如,是不是所有时间都短于10秒?那就意味着你内心的时钟跑的太快了。在这个简单的任务中,偏差是你得出的平均数值和10秒之差。
我们做判断的时候,有些判断整体偏离了目标,公司高管年复一年对销量做出更高预测,公司对本该撤销的项目持续进行投资,这些都是偏差。
而有些判断存在严重分歧,商业预测员会对新产品的可能销量做出不同预测,面试官会对相同应聘者的评估大相径庭。在现实的决策中,噪声的数量往往高的惊人。
不幸的是,很多组织是同时受到噪声和偏差的困扰。但这两者哪个带来的问题更大呢?很可能是噪声,噪声这个问题,远超我们的想象。
混沌君:为什么您的研究从偏差转向了噪声?是有什么契机吗?
卡尼曼:最初接触噪声,并对噪声产生兴趣其实是一次偶然,当时我们二人所属的咨询公司正和一家保险公司合作。保险公司的高管都明白噪声是不可避免的,但是他们也不确定,对公司来说,噪声到底能产生多大影响。对于是否需要采取措施、减少噪声,高管中间分歧很大,但他们都同意了去做“噪声审查”。
检测结果相当惊人,营利性组织会因为噪声损失惨重。
思考一下这个问题:一家经营状况良好的保险公司,如果你随机选择两位合格的核保员或者理赔员,你预测一下他们对同一案件的估价有多大差异?
大多数高管预测的差异为10%或者更少。但是经过噪声审查,我们发现这个差异是55%,是大多数人预期的5倍还多。噪声的存在没什么神奇的,令人震惊的是噪声的体量。系统噪声比我们想象中要大5倍,甚至超出了我们的承受范围。噪声审查打破了一致性错觉。
混沌君:为什么研究噪声对商业决策者来说很重要?忽视噪声有什么危害?
西博尼:保险公司的例子就很适合解释这个问题,我们继续探讨这个案例。
保险公司每个分支机构都有几位有资质的核保员,每次有人请求报价,就会随机指派核保员去准备报价。核保员是随机的,但他们的报价却会给公司运营带来很大影响。
如果核保员报价太高,高额保险费对保险公司来说是有利的,但是激进的报价也会带来失去客户的风险,客户可能会转移到竞争对手的阵营。但如果报价太低,客户满意度提高了,但公司可能会赔钱。也就是说,对任何风险,都有一个恰到好处的报价,
如果保险公司对一份保单估价过高,另一份估价过低,那平均估价看起来可能是正确的,但实际上,保险公司已经开出了两张错误保单,两个错误并不会互相抵消。
再比如,你在法庭上给两名罪犯定罪,他们两人都应该判处5年,但他们分别被判处了3年和7年。由于噪声的存在,司法有时宽宏有时又很严厉,平均下来,正义并没得到伸张。
噪声系统有一个重要的问题,就是误差不会抵消,而是会叠加。平均正确是远远不够的。公司、营利性组织在决策时一定要注意这一点。
所以当我们把噪声审查结果呈给高管们,他们很快意识到巨大的噪声会让公司付出多少代价。一位高管评估,保险公司每年在承保方面的噪声成本是数亿美元。包括因报价过高造成的业务损失和低价合同造成的收益损失。
噪声是无处不在的。一个公司内不同评估者对新产品的可能销量、经营不善的公司破产的可能性,以及其他几乎所有方面,都会做出非常不同的预测。有时侯不仅他们彼此意见不一,自己的预测也前后矛盾。当同一批软件开发人员被要求在不同的两天评估完成同一任务的时间时,他们预计的时间平均相差71%。
人事决策中也存在噪声,不同面试官对相同求职者的评估大相径庭。对相同员工的绩效评估也存在着很大差异。评价结果更多取决于评估者,而非被评估者的绩效。
二、噪声和公司组织
混沌君:既然哪里有判断,哪里就有噪声。那为什么大部分商业决策者都对噪声视而不见,即便噪声已经影响了公司的运营?
西博尼:这里有几方面原因,让噪声没能引起注意。
首先是心理原因。我们大多数人有种“根深蒂固”的信念,即这个世界就是我看到的样子。从这个信念很容易过渡到另一个信念——“其他人对世界的看法和我差不多”。甚至有不少人把这种信念当成了现实,我们很少会投入精力寻找其他可能性。如果有人提出异议,你会认为他们走进了误区。
就专业判断而言,你的这种认知每天都在以多种方式被强化。比如你是保险公司主管、医生、法官,你会和同事使用一种语言、一套规则来考虑决策中的重要因素,你也会有一些可靠的经验,不断的实践建立起了你对自己判断的信心。但其实,很难注意到,我们一致认为的规则是含混不清的。我们可以和同事愉快相处,但根本不会注意到,他们看待事情的方式和我们不同。
另一大原因,是组织的影响。组织对噪声的普遍无视,和噪声的普遍存在一样有趣。
我们在公司参会时里经常出现一种情况,很少有公司会采取预防措施,确保房间里的每个人都能独立表达他们的意见。相反,通常会发生的情况是,会议发起者或者某位资深人士最先发表一番言论、提出一些建议,他们的建议非常有力,很多人会认同这一观点,最后形成了一个结论。同样,如果另一个人在会议一开始就表明了不同的观点,讨论可能会朝不同方向发展。
为什么公司领导层意识不到噪声问题?对分歧的不适感起了很大作用。大多数组织都喜欢共识与和谐,不喜欢异议和冲突。现有的程序似乎是特意设计的,就是为了将分歧出现的频率最小化。在这里,一致性可能是社会压力的产物,而不是自己的观点,我们永远不会听到分歧,那些本该存在的分歧基本上都被隐藏了。
混沌君:可以具体讲讲群体是如何放大噪声的吗?
西博尼:群体的决策可能会因为一些无关因素超任何一个方向改变。
举个例子,公司每天都会做出决策,比如雇佣、晋升、沟通策略……但谁先发言、谁后发言、谁发言更自信、谁在某个时刻笑了或者做了其他小动作,这些因素其实都会影响结果。
首先,信息级联,极易放大群体判断中的噪声。
这里给大家介绍一个概念。信息级联(information cascade)。信息级联的现象很普遍,它可以解释为什么一些相似的商业群体、以及其他群体会做出完全不同的决策。为什么一个小变化会呈现出完全不同的结果。
想理解信息级联是如何发挥作用的,我们可以想象一间大办公室中有10 个人,他们在决定要雇用谁来担任一个重要职位。有3 位主要候选人:托马斯、山姆和朱莉。假设群体成员是按顺序发表自己的观点。每一个人都会认真聆听其他人的判断。
阿瑟第一个发言。他认为托马斯是最佳人选。
芭芭拉现在知道了阿瑟的判断。如果她也认为托马斯是最佳人选,她肯定会认同阿瑟的意见。但是假如她不确定谁是最佳人选,如果她信任阿瑟,她可能也会认同托马斯是最佳人选。因为她足够信任阿瑟,所以她支持了他的判断。
现在轮到第三个人查尔斯发言。阿瑟和芭芭拉已经表明他们想雇用托马斯,但查尔斯有自己的想法。基于他自己掌握的有限信息(他非常清楚自己的信息很有限),他认为最佳人选不是托马斯,而是朱莉。虽然查尔斯有自己的想法,但他也有可能会忽视自己已知的信息,而只是附和阿瑟和芭芭拉。如果是这样,并不是因为查尔斯懦弱,而是因为他是一个尊重他人的倾听者。他可能只是认为,阿瑟和芭芭拉都选托马斯,他们肯定有自己的理由。
第四个发言者是戴维,除非戴维认为自己掌握的信息比他人更有说服力,否则他也会附和前几人的意见。如果戴维也这样了,那么戴维就处在一个“级联”中。
这个例子的吊诡之处在于,阿瑟最初的判断启动了一个过程,其他人被引导近信息级联中,即使有些人没有看法,或者有异议,但最终结果依然是所有人都选了托马斯。
当然,这个例子是人为设定的,但在各种群体中,类似事情时有发生。人们倾向于向他人学习,如果先发言的人似乎喜欢某个事物或者想去做某件事,人们也会表示认同。如果人们不怀疑这些发言的人,或者缺少一个明确的理由认为后者是错的,至少这些情况下人们会认同。
当然,信息不是导致群体成员互相影响的唯一原因。社会压力也是很重要的因素,在公司或者其他机构中,人们可能会通过保持沉默避免自己显得不友好、爱争吵、迟钝或者愚蠢。人人都希望成为团队的一员,所以大家通常追随他人的观点。
混沌君:您有研究过中国商业案例中的噪声吗?不同文化会对噪声的现象带来什么影响?
卡尼曼:文化对噪声的影响不属我的研究范畴。我们没有专门针对中国公司做过调研,但我们描述的噪声问题不受地域和其他限制。
我觉得有意思的一点是,我们会陆续收到不同人群对“噪声”的反馈。我们可以看到不同文化背景下,处在不同系统中的人群,对“噪声”的反应会有多不同。有些人群对噪声的容忍度可能更高,因为每个人都愿意坚持己见,在某些地方,发现大家彼此之间其实怀有不同的想法,这种事实可能就会令人震惊。
不同环境、系统会给“噪声”做出不同的反馈,不出几年我们就会窥见端倪。但我觉得不论在何种环境里,大家都会有强烈的意愿去减少噪声。
过去对大家来说,偏差才是舞台上的主角,大家对判断误差的研究,包括我之前所作的《思考,快与慢》,几乎完全是在讨论偏差,一种系统的可预测的判断错误。
但事实证明,另一类误差——噪声的影响被极大地忽视了。甚至在某些情况下,噪声的影响要超过偏差。写这本书的目的,就是为了调整这一不平衡的状态,让大家注意到噪声和偏差一样,同样值得关注。
三、决策卫生,降低噪声的关键方法
混沌君:那如何才能做出更好的决策,有什么方法论吗?商业领域决策者应该注意什么,能给他们几点忠告吗?
卡尼曼:有几点是商业领域决策者应该特别注意的,我再强调一下:
第一点,哪里有判断,哪里就有噪声,而且噪声比你想象的要多。这是非常重要的一点。
第二点,在错误判断中,噪声的影响可能和偏差一样大,甚至可能大于偏差。
第三点,减少噪声与减少偏见所采取的方式不一定相同,所以我们在书里谈到了“决策卫生”策略,作为改进的一种方式。
什么叫决策卫生呢?
我们已经了解到偏差是经常看到的甚至可以解释的误差。但是噪声是不可预测的误差,既不容易看到,也不容易解释,这就是即便噪声会造成严重损害但却经常被忽视的原因。所以,减少噪声的策略对消除偏差的作用,就好比预防性卫生措施对医学治疗的作用。
我们把这种降低噪声的方式叫决策卫生。举个例子,你洗手的时候,可能不知道到底在预防那种细菌,你只知道洗手是杀死细菌的好方法。
决策卫生措施可能会很乏味,但它带来的好处是显而易见的。纠正噪声的过程可能很无趣。纠正偏差至少可以让你获得一种实在的成就感,但减少噪声的过程不会。噪声是隐形的敌人,战胜隐形的敌人也只能取得隐形的胜利,但是,就像保持身体健康需要讲卫生一样,决策卫生至关重要。
一个患者的手术成功后,你会相信这是外科医生的妙手回春挽救了你的生命;但如果外科医生和手术室中的其他人员都没有洗手,这位患者可能已经一命呜呼了。做好杀菌消毒工作可能没有什么好值得炫耀的,但却会产生实实在在的效果。
混沌君:决策卫生有什么简明的逻辑吗?
西博尼:我们在书里把“决策卫生”策略总结为6项原则:
1.判断的目的在于准确性,而不在于个性化表达:这是判断中必须遵循的首要决策卫生策略,它是个体差异以及“判断人格”的直接结果,判断人格会导致不同人在面对同一问题时有不同的观点。基于这些发现,我们得出一个不受欢迎但又无法忽视的结论——做判断不是表达个性的场景。
遵循这一原则的一种比较激进的方法是用规则或算法来代替判断。用算法做评估可以保证消除噪声。但虽然算法在很多重要得以应用,但最重要决策阶段,算法不可能取代人类判断。适当使用算法,或者让决策者不那么依赖于专业认识的喜好,这些办法都能改善判断。
举个例子,决策指南可以有效地限制法官的自由裁量权,提升医生诊断的一致性,进而减少噪声和提升决策质量。
2. 使用统计性思维,采用外部视角审视个案:当人们基于自身独特的经历来形成对特定事件独特的看法时,其结果就是产生模式噪声。外部视角可以解决这一问题:具有相同参照系的专业人员会有更少的噪声,此外,外部视角也有助于产生有价值的见解。
3. 对判断进行结构化——将其分解成几个独立的任务:当同一案例的不同方面所产生的印象相互“污染”时,判断在总体上的准确性就会受到影响。比如,如果允许证人之间互相交流,你认为他们所提供的证词,还有多少价值呢?因此,尽可能将每个评估分配给不同的团队,并尽量减少他们之间的沟通,这样就能确保评估之间的独立性。
4.抵制不成熟的直觉:直觉赋予了决策者判断的信心。决策者不愿意放弃这种奖赏性的内部信号,这也是为什么他们不愿意使用指南和算法或者其他束手束脚的规则的主要原因。决策者需要对他们的最终决策感到满意,并从直觉的自信中获得回报感。但直觉应该建立在一定信息的基础上,且应该接受规则的约束与以及适当的延迟处理。
这一原则启发我们对信息进行排序:不应该给做判断的专家呈现他们不需要的,以及可能引发偏差的信息,即使信息是正确的。比如在司法科学中,最好不要让检查员知道有关犯罪嫌疑人的其他信息。
5.获取多位判断者的独立判断,然后再考虑汇总这些判断:很多组织的常规流程都违反了独立性原则,尤其是一些会议流程会导致参与者的意见受到他人的影响。由于信息串联效应和群体极化效应,群体讨论通常会放大噪声。在讨论之前收集参与者的判断,这样一个简单的流程既可以揭示噪声的程度,又有助于以建设性的方式解决分歧。
6.用相对的判断和相对的尺度会更好:相对判断的噪声要比绝对判断的噪声小,因为我们在同一量尺上对多个对象进行归类的能力是有限的,但是我们对众多对象进行两两比较的能力却更胜一筹。基于比较的判断量尺要比基于绝对的判断量尺的噪声更少,例如,我们可以用每个人都熟悉的案例作为一把标尺,而判断者们只需要确定某个案件在标尺上的相对位置即可。
混沌君:能否举个具体例子,针对公司决策中出现的噪声,我们可以采取哪些决策卫生措施,去减少噪声?
西博尼:有一点值得注意,公司里有这样一种现象,我们会花很多时间做绩效评估,但其实绩效评估只有1/4反映了绩效表现,其他3/4都是系统噪声。过去这些年,有众多企业对评估制度进行过无数次的改革,这些改革里也有一些减少噪声的策略,但在我们看来,人们做的还远远不够。
很多大公司的标准做法是,把汇总评估和360度反馈系统相结合。但其实360反馈系统也可能让结果变得更糟糕。
360度反馈系统不是为了降低系统噪声存在的,而是为了测量出一些领导看不到的东西。从理论上讲,这种转变是种改进,因为现在人们的工作不是为了取悦领导。一些证据表明,360度反馈系统很有用,但也存在一些问题。
首先计算机化使得在反馈系统中添加更多问题变得轻而易举,组织的多重目标以及越来越多的限制增加了岗位的维度,许多反馈问卷变得异常复杂,过度设计的问卷比比皆是。但通常来讲人们是无法回忆和处理多个对象多个维度上准确且相关的事实的。
其次,360度反馈系统成倍增加了反馈的时间。即便出发点是好的,但是当时间有限的评估者遭受一系列问卷“轰炸”时,我们就别指望他们能提供高质量信息了。
最后,360度反馈系统也存在所有绩效体系都无法避免的一个通病——悄无声息地出现评估通胀。比如一家大型工业公司曾经观察到,公司98%的管理者都被评为“完全符合预期”。当几乎所有人都获得最高评价时,这些评估的真实价值就值得怀疑了。
有一项研究表明,90%的管理者、员工和人力资源主管都认为,他们的绩效管理流程无法实现预期的效果,相关的研究证据也正式了大多数管理者这种感受。虽然绩效和发展计划有时候能带来一些改进,但绩效评估对员工工作积极性的打击和它带来的激励一样多。
有不少公司正考虑做出一种极端选择,放弃传统的绩效考评方式。对绝大多数没放弃绩效评估的公司来说,可以做哪些改善呢?它们可以采用的方式就是,选择合适的量表,确保不同的判断一句的是相同的参照系。
量表必须使用具体的描述,只有描述够具体,人们对他的理解才能一致。
尽管行为锚定评估量表不足以消除噪声,但证据表明,使用行为锚定评估量表(behaviorally anchored rating scales)进一步搭配参照框架培训(frame-of-reference training)被证明有助于确保评估者之间的一致性。在这一步流程中,评估者将接受相关培训,来对绩效的不同维度进行识别。
行为锚定评估量表(左)和案例量表(右)的例子
通过使用案例量表,对每位新个体进行评估时我们都可以将其与锚定案例做比较,这样一来,评估就变成了一种相对判断。由于相对判断比评分更不容易受到干扰,所以案例量表比使用数字、形容词或行为描述的量表更可靠。对于任何组织来说,如果控制了评估者的噪声,也就同时限制了评估者按照自身意图来影响评估的能力。要求管理人员接受额外的评估者培训、在评估过程中投入更多精力并放弃对结果的一些控制。
绩效评估这一大课题产生出了许多现实的以及哲学的问题。例如,有些人会问,在当今的组织中,个人绩效的概念在多大程度上是有意义的,因为组织的绩效往往取决于人们之间的互动。如果我们认为这个概念确实是有意义的,那么我们就需要想一想,在一个既定的组织中,个人绩效水平是如何分布的,例如,绩效是否服从正态分布,或者是否存在做出极大贡献的“超级人才”。如果你的目标是让人们表现出最好的一面,那么你自然会问,衡量个人绩效并用这种衡量的结果来激发人们的恐惧与贪婪是不是最好的方法?以及这是不是有效的方法?
如果你正在设计或修改组织的绩效管理体系,那么你需要回答以上问题以及其他更多的问题。我们的目的不是研究这些问题,而是提出一个更为温和的建议:如果你确实测量了绩效,你的绩效评估过程很可能充满了系统噪声,因此它们可能基本上是无用的,甚至会适得其反。
减少噪声是一项挑战,因为它无法通过简单的技术修复来解决。它要求评估者对其所做出的判断有清晰的思考。很有可能你会发现,可以通过对量尺进行清晰的界定以及培训人们始终如一地使用这一量表的方式来提升判断质量。这种降噪策略也适用于许多其他领域。
本文来自微信公众号:混沌学园(ID:hundun-university),作者:赵滢