扫码打开虎嗅APP
本文来自微信公众号: 扯氮集 ,作者:魏武挥二世
1月20日,马斯克公开了推特(即X)的推荐算法,引起了广泛关注。在GitHub上线短短6小时,Star数就突破了1.6k。
马斯克的做法,在当下的舆情中,自然叫好一片。我甚至有一种“天下苦算法黑箱久矣”的即视感。但在我看来,很多看法观点,都是不太了解这事究竟是怎么回事的结果,尤其是“信息茧房”、“回音壁”、“过滤泡”这些大词,人们对它们的误解,已经到了很深的地步。
如果只是普通大众,也就罢了。但我确实看到不少搞媒体与传播的专业人士(包括不少学者),都有这样那样的误解,我就很惊讶了。
难道你们都忘记了在大众媒体大众传播之初的魔弹论了么?媒体就像有魔力的子弹,一打一个准,指鹿为马都做得到。在之后的研究中(比如著名的广播剧火星人登陆研究,位列大众传播效果研究的里程碑案例,注1),魔弹论破产,因为人们发现了二级传播理论,大众很大程度上是通过所谓意见领袖来有针对性地接受媒介信息。
请注意,这很重要:人和人是有个体差异的,且,人是活在真实世界中的,ta会有各种不同的信息源(包括各种媒体、各种朋友、各种ta认为可以一听的意见领袖),而不是傻不拉叽就抱着一张报纸的。
坦率讲,我是觉得,今天对算法推荐的恐惧,在逻辑上,和当年对媒体的恐惧(魔弹),是同构的。两者看到的与忽视的,几乎一模一样。
二
首先来看马斯克这个行为,我称之为带有防御性质的有限透明化实验。
所谓有限透明,即马斯克公开了架构逻辑与网络结构(控制层),但却没有公开参数权重和实时训练数据(运算层)。而缺少权重和数据,意味着外界无法复现算法的决策结果。举个比方就是,公开了波音飞机的设计图纸,但没有公开飞行员的操作手册和黑匣子数据,你依然无法知道某次坠机事故的确切原因——你当然不可能仅靠设计图纸就去判断一起空难的原因。
那么,有没有可能公布权重和数据呢?想法当然非常美好,但实际近乎不可操作。运算层是一套基于深度学习模型的推荐算法,是基于海量参数的概率预测模型,其决策路径分布在数亿个神经元权重中,而非人类可读的线性逻辑,并不是大众想象中的“如果用户是个小孩,就给ta看玩具广告”这种if-then规则。
即便公开源代码或权重矩阵,对于人类而言依然是无法理解的“天书”。想追求“简单明了地解释”,在技术上与高维非线性模型的本质相悖,是一种不可能完成的期待。就算强制公开,不仅无法实现有效监管,反而可能导致恶意黑产针对算法漏洞进行逆向工程,劣化内容生态。
所谓防御性质,即马斯克面对欧美的日益严格的监管,用所谓源码公开的手段,进行防御和抗辩。而且,也卷入了大量非马斯克支付报酬的外部工程师,为其寻找逻辑漏洞和性能瓶颈,是一种利用开源社区的免费劳动力替代昂贵的内测团队,将技术成本部分外部化的做法。
更不用讲对同行大厂的压力:我都公开了,你们呢?
马斯克此举,有其正面意义,对技术伦理的探讨是有助力的。比如,从抽象的道德呼吁,变为具体的代码审查层面。算法要有良心这种其实啥也没说的话,可以变成“第45行代码的权重参数是否合理”。这消灭了模糊扯皮的空间。
马斯克也部分祛魅了算法黑箱。这有点像绿野仙踪那个故事:多萝西以为大法师(算法)拥有无边法力(黑箱很神秘),充满敬畏。最后她拉开了帘子(开源),发现里面不过是一个手忙脚乱操作拉杆的普通老头:逻辑和结构这一控制层没你想得那么玄乎。
但需要深刻理解的地方在于,很多人嘴里的算法,其实他们并不明白,实则有两层:控制层和运算层。
控制层听上去高深莫测,实则没有什么了不得的数学含量,有着相当大的人类随意性,相当于一个骑象的人向座下巨象发出往东跑的指令。但运算层,也就是算法的执行路径。依然有其混沌的一面,它本身是一个由数千亿个参数组成的神经网络,属于座下那头巨象,它具体执行向东跑指令的运动,是一个相当复杂的过程。
当企业意图让用户多停留,这就是骑象人的指令,但究竟是向张三推那只跳舞的猫,还是向李四推那个吵架的视频,这不是人写的规则,而是模型通过分析海量数据(训练数据)自己总结出的概率分布(权重)。这个过程是“涌现”出来的。没有一个工程师能准确解释为什么某个神经元在看到猫耳朵时激活了0.7,而不是0.6。这就意味着,即便是开发者,也只能调参,而无法微操。
这个道理特别像总编辑要求一个记者接下来的三四天,要重点关注与报道某事件。但这个记者到底为什么用了这些字和词,为什么用了十段而不是八段九段,别说总编辑,记者自己恐怕都不甚了然。
三
现在来看看关于算法的一些讨论,这里我要以一篇题为治理成瘾推送需打破“算法黑箱”的文章为例。该公号在我视野里,是一个蛮有口碑的官方公号。颇有几次,我朋友圈有其文章的刷屏盛况。
文章有其合理之处,但也有一些我想与之商榷的地方。
四
此文有几个点,是有道理的:
其一,企业确实是想利润最大化的,如果是基于广告作为主要商业模式,那么,尽可能拉长用户停留时长——这就意味着用户可以更多接触广告——毫无疑问,是企业的重要目标。
然而,这里我要额外指出一点,正是因为它想拉长用户停留时长,反而不会“你喜欢足球就无时不刻给你推荐足球”这种简单粗暴的兴趣逻辑。天天吃龙虾泡饭,也是会腻的。
其二,带有情绪性质的文本,会得到更好的传播。尤其是标题带有情绪性质或激发你的情绪。研究表明,高唤醒度情绪比中性情绪更容易触发分享和互动行为。文章列举的“上海女子200元打赏骑手被网暴”案例中,负面情绪评论被高赞置顶,确实反映了协同过滤算法对高互动权重的偏好。
其三,文章也注意到,算法是非常复杂的,别说普通人难以理解,一般程序员也很难。文章承认“如果将算法公开简单等同于披露源代码,会损害企业核心利益,对于缺少相关专业知识的网民来说,理解门槛也过高”,这个论断显示了作者对技术复杂性有基本的理性认知,并未陷入绝对的“代码公开即正义”的幼稚病。
其四,在冷启动——也就是该用户是全新的新用户——期间,确实存在所谓暴力试探,即推送普适性的“高点击率内容”来获取用户初始反馈,从而高效率地构建用户画像。在这一过程中,平台并非对用户一无所知——比如用户手机机型还是知道的,用户上线时间、地理位置、获取app路径也都是知道的。可以根据已有用户画像中寻找共同点进行尝试性推荐,但推荐什么,依然还是以“高点击内容”为主,结合第二点,我们就知道暴力试探期间,大概是个什么结果了。
但文章也有一些大而化之和想当然之处。
五
先来看“成瘾”两个字,坦率讲,这篇文章标题里的“成瘾推送”何尝不是一个高唤醒度情绪,有大而化之之处。
大众传播语境中的“成瘾”二字,其实是很模糊很不确切的,我们还是要以科学的态度,从临床医学和行为心理学等科学维度中去看所谓“成瘾”。结论有点复杂:成瘾机制存在,但病理存疑。
如果将“成瘾”定义为“操作性条件反射下的强迫性重复行为”,那么实证证据是压倒性的。这并不是算法的发明,而是算法利用了已经存在了70年之久的斯金纳箱的实验结论(注2)。他的鸽子实验证明,相比于固定奖励,随机奖励能产生最高的响应率和最难消退的行为模式。
现在很多内容平台喜欢使用的“下拉刷新但不知道后面是美女还是广告”就是对这一理论的实践。数据科学家通过A/B测试反复验证了这一点:不确定性越高,用户停留时间越长。
这就是所谓的机制成立。
从神经科学角度,证据有存在,但强度被夸大。
如果将“成瘾”定义为“大脑奖赏回路的病理性改变”,那么现有的实证证据并不支持这就是毒品。
一项功能性磁共振成像研究显示,获得点赞或看到期待内容时,大脑确实会释放多巴胺(注3)。然而,我们也要看到,这种激活并非算法独有。吃糖、某些成人行为、甚至看到美丽的风景大脑都会被激活。所谓“数字海洛因”是一种典型的大众传播语境下的夸张修辞。实证数据显示,社交媒体引发的多巴胺释放量远低于可卡因或安非他命(注4)。其生理强度更接近于“超常态刺激”。
临床医学角度,则病理化有巨大争议,总体倾向为谨慎甚至否定。
在精神病学权威指南《精神障碍诊断与统计手册》(DSM-5)中,“社交媒体成瘾”并非正式确诊的疾病(不同于“赌博障碍”)。这直接说明学术界认为目前的实证证据不足以将其定义为独立的病理现象。
许多声称“算法导致抑郁/成瘾”的研究是横断面研究,只能证明相关性(注5)。越来越多的纵向研究指出,很可能是孤独、焦虑或缺乏自控力的人更倾向于沉迷算法,而不是算法把一个健康人变成了瘾君子。算法是一种非健康人的应对机制(相当于止痛药)而非其不健康的病原体(元凶)(注6)。
算法是反馈机制,不是控制机制。
在我看来,所谓“成瘾论”大行其道,广受欢迎,无非就是这两个原因:
其一,道德恐慌的循环。这是媒介批判的老套路,所有新发明的媒介技术都值得警惕。有时候甚至为了让更多人看到自己的观点,不惜矫枉过正诉诸夸张(注7)。无非是一种对社会面临新技术的习惯性排异反应的迎合。
其二,责任转移的绝佳借口:承认算法导致成瘾,可以让家长推卸教育责任,让个人推卸自律责任。我一贯对鸡娃不以为然,因为这些家长们似乎从来没想过,你最该鸡的,难道不是你自己么?
如果一个人声称被算法“奴役”了,这在统计学上更多指向的是ta的社会连接匮乏或前额叶皮层控制力弱,却非哪个邪恶的工程师发明了什么控制心灵的黑魔法。这位声称被奴役的用户,并不是无辜的受害者,而只是一个缺乏自律的参与者。
仅此而已。
六
信息茧房,这个词遭遇了太多的想当然。
这个由美国政治学家桑斯坦提出的假说,其实在后来,遭遇了学术界不少实证研究的质疑,包括且不限于传播学、政治学、数据科学等。而今人对桑斯坦这个概念最大的误用,是全然没意识到桑斯坦是20年前基于“主观订阅制”(比如iGoogle这种新闻订阅制服务)提出的警告——《网络共和国》成书于2001年,《信息乌托邦》为06年。07年,桑斯坦对《网络共和国》做了重大更新,出版了《网络共和国2.0》,但这几个时间点,算法推荐还不知道在哪里。
我一向认为,社交网络的封闭性远超算法推荐。因为有这样的俗语:物以类聚人以群分。基于人际关系的社交网络更倾向于同质化。而这种社交网络,本质上,和桑斯坦当初认为的主观订阅制,殊无二致——你若是讨厌一个人,是可以很快地将其驱逐出你的社交网络的,这不就是取关。
然而,即便退回到桑斯坦的原意,我也认为信息茧房这个词被夸大了。也就是说,即便社交网络更容易产生信息茧房,其实也没啥了不得的。
这是一个被过度渲染的“恐慌概念”,迎合了人类的一种心理防御机制:倾向于把自己的狭隘归咎于外部工具。所谓被被困在某种信息流中,更有可能的原因是交互行为(点赞、停留)极其单调,或者从未尝试主动搜索异质信息。
同样被过度渲染的,还有回音壁、过滤泡,等等。
除了高举信息茧房大旗的负面批评(多见于大众媒体文章或定性的探索性质的研究),这十多年来,其实也有一些对该词颇为不以为然的正经的实证的研究。
七
以下我罗列了七项实证研究,从早一些的2011年一直到24年,这些研究都有样本量极大的特点,有些时间跨度还很长,研究结果一般发表在全球顶刊上,属于高质量的研究。通过这些研究,我们会发现,对算法的很多流于表面的批评,其实证据却是反的。
稍许有点枯燥,如果你想跳过,你只需要知道这些研究都指向了一点:一些负面结果(比如思想极化),算法和它们不是因果关系。
第一项,2011年,研究者对比了美国民众在线上新闻消费和线下社交互动的隔离指数。结果显示,互联网的意识形态隔离指数(注8)实际上低于大多数线下环境。(注9)
研究的推导结论就是,:物理社区(居住地、工作场所、家庭聚会)的同质化程度远高于互联网。算法推荐反而比你的邻居和同事更可能向你展示异质信息。所谓的“茧房”,在没有算法的时代,或者说在物理世界中,实际上更坚固。
著名调研机构皮尤在2014年也做过类似的研究,该机构想知道,互联网上存在不存在所谓的沉默螺旋。结果意外得知,类似斯诺登这种极具争议度的事件,人们更愿意选择物理空间找所谓志同道合者进行交流,无他,合拍而已。在互联网上找人聊的排序度垫底。(注10)
第二项,2015年,研究者对脸书1010万活跃用户的分析显示,算法排序确实减少了约5%-8%的跨意识形态内容曝光,但用户自身的点击选择减少了6%-17%的跨意识形态内容消费。
研究结论就是相比于算法的过滤作用,用户自身的“确认偏误”——即主动不点击那些挑战自己观点的链接——才是造成信息窄化的主因。(注11)
第三项,2016年,研究者通过分析5万名美国用户的浏览记录,发现通过社交媒体和搜索引擎获取新闻的用户,接触到的对立观点来源比那些直接访问新闻网站的用户更多。(注12)
这个道理就在于平台想拉长用户时长,设计的探索机制目标是优化长期留存,所以必须依据随机性策略,引入一定比例的新异内容。相比于完全依赖个人偏好(直接输入网址访问特定媒体),算法实际上在一定程度上强迫用户看“不想看”的东西。
我是一个在算法平台上消费较多时间的人,我不得不说,算法实际上比由于认知懒惰而固步自封的我,更倾向于打破我的茧房——我反正是打破脑袋都不会主动去找外国人归化在身份证民族这一栏上该填什么的知识的,是抖音平台推送给我的。
第四项,2018年,研究者对2000名英国成年人的研究发现,政治兴趣高的人群倾向于使用多种媒体渠道,这类人群几乎不可能被单一算法困住。只有那些政治冷感且仅仅依赖单一渠道的人才可能陷入茧房。(注13)
真正的风险不在于被算法控制,而在于用户的懒惰。多渠道使用习惯是打破茧房的充分条件。我经常在课堂上提及,你要用社交网络与社会化媒体,也要用算法平台,最好在手机里也多装几个新闻媒体的原生app。而如果你沉溺于单一渠道,不好意思,上帝都救不了你。
第五项,2018年和2021年的研究表明,只有约8%的重度互联网用户真正处于严格的“回音室”中,这些人主要表现为极右翼或极左翼。其余绝大多数用户依然主要从主流门户和中间派媒体获取信息。(注14)
所谓的小团队思维,是会导致信息极化的,极端恐怖主义组织有这个特点。但信息茧房并非普遍现象,而是一种统计学上的长尾。大众媒体将其描述为普遍性的社会危机,是对极端样本的过度诠释,是狗咬人不是新闻人咬狗才是新闻的新闻机制运作下的结果。
第六项,2023年的一项研究表明,算法改变了“眼睛”,但没改变“脑子”。研究人员通过“去算法化”实验,强制将部分用户的Feed流改为“按时间排序”,剔除基于深度学习的个性化推荐,并观察长达3个月。
研究发现:1、算法确实导致用户看到的政治内容更加隔离(所谓的同温层效应)。相比之下,“按时间排序”的Feed流确实让用户看到了更多异质性的内容。2、但是,观点极化几乎为零。也就是尽管算法改变了用户“看到了什么”,但对用户“相信什么”(政治极化程度、对立情绪、投票行为)没有产生统计学意义上的影响。(注15)
第七项,2024年的一项研究,驳斥了“兔子洞”假说,也就是看了一个极端化视频就会被拖入极化深渊。兔子洞假说是对深度学习体系的一个担忧。研究人员通过模拟大量Bot(机器人账号)和真实用户数据,发现推荐算法实际上倾向于温和化而非激进化。当用户开始观看极端内容时,推荐系统为了留存率(为了让你看更多广告,而不是把你吓跑),往往会试图将你拉回主流内容。而陷入这种极端内容的用户,主要通过主动选择的订阅,或者外部链接跳入。(注16)
八
在媒体传播学界,有一个被称为“媒介环境学”的学派,主要探讨媒介技术作为自变量,社会文明作为因变量,两者之间的关系。该学派中最为有名的学者,是麦克卢汉。
但该学派中不少学者,比如伊尼斯、波兹曼,都被视为“技术决定论者”——也就是认为技术是社会变化变好或变坏的主因,伊尼斯甚至有唯一原因的倾向。麦克卢汉有争议,我个人不是很赞同他被划入技术决定论,
技术决定论者当然不是啥好词,因为很显然,社会文明的变化,技术只是原因之一,而未见得是主因,更不是唯一。技术决定论有着浓厚的因果倒置的供需逻辑:技术,有时候甚至是社会文明变化的结果。
在我看来,将人性的懒惰、寻求即时满足的生物本能完全归罪于算法工具,掩盖了教育体系、社会压力与文化供给匮乏才是导致深度思考能力丧失的根本原因。
用户,是活在真实世界中的人,ta自有ta的原生家庭、学校教育、人际关系、亲朋好友,平台投喂诱导就能将其如何如何,未免不把用户看成人而是提线木偶。
再重复一遍:
算法,是反馈机制,不是控制机制。我当然不是在说算法是朵白莲花,毫无危害,但需要搞明白的事是,一个人的非健康化,主因到底是什么。
——首发扯氮集——
注1:1938年,哥伦比亚广播公司(CBS)播放了一个广播剧,根据科幻小说《世界大战》改编的火星人入侵地球的恐怖故事。有600万听众收听了这个节目。由于做得太像一个新闻播报节目,不少听众——至少100万人——信以为真仓惶出逃,但还有数百万人不为所动。后来由坎垂尔主持的研究表明,选择的关键是“个体差异”和“社会关系”。这项研究作为时间序列上的第二个里程碑被列入《大众传播效果研究的里程碑》一书中。
注2:同样是1938年,行为主义心理学创始人之一斯金纳发明的一种用于动物操作条件作用的实验装置。
注3:The Power of the Like in Adolescence:Effects of Peer Influence on Neural and Behavioral Responses to Social Media(点赞在青春期的力量:同伴影响对社交媒体神经和行为反应的作用)作者:Lauren E.Sherman,et al.发表期刊:Psychological Science(2016)https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5387999/
注4:可以参考斯坦福大学医学院精神病学教授、成瘾医学诊所主任Dr.Anna Lembke的论著:Dopamine Nation:Finding Balance in the Age of Indulgence(2021)
注5:与横断面研究(只拍一张快照,发现抑郁的人爱刷手机)不同,纵向研究跟踪同一群人多年,能够通过时间序列分析判断谁是因、谁是果。
注6:一项长达8年的对13岁到20岁的青少年跟踪研究,是该领域持续时间最长的项目之一。直接挑战了“刷得越多,病得越重”的假设,提出了时长与焦虑无关。个体在社交媒体上花费的时间增加,并不能预测其未来的抑郁或焦虑水平:Does time spent using social media impact mental health?:An eight year longitudinal study(使用社交媒体的时间会影响心理健康吗?一项为期八年的纵向研究),Computers in Human Behavior(2020),https://doi.org/10.1016/j.chb.2019.106160。另外还有两项研究,都有力地支持了“心理缺陷在先,算法使用在后”的结论。分别是只有特定脆弱人群才受害(The Differential Susceptibility Study):https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7345946/,以及牛津大学30万样本:影响仅占0.4%(The Oxford Big Data Study):https://www.nature.com/articles/s41562-018-0506-1
注7:写过大名鼎鼎的娱乐至死、童年消失、技术垄断的尼尔波兹曼自己都承认,自己有矫枉过正之处,他称之为打破恒温室效应。他曾多次表示,其实并不是在做“科学”,而是在做“讲故事”或“道德神学”。他认为社会研究不像物理学那样有确定的定律,它更多是一种基于历史和观察的叙事。因此,为了阐明一个观点(比如电视正在毁灭童年),他必须像讲故事一样构建一个宏大的叙事。在这个意义上,他承认他的理论是一种为了警世而构建的“故事”或“隐喻”,这本身就包含了一种修辞上的夸张。在我看来,他的观点不乏启示性,但如果你要无比拜服并津津乐道他的论点,以为这就是真理,未免就是一种文二病——文科二年级研究生那种看了几本书便自以为是自觉很有洞察其实充斥着滑坡谬误的书呆子病。
注8:这个指数并非由研究者凭空发明,而是借用了社会学中用于衡量种族居住隔离的经典指标——隔离指数。在社会学中:隔离指数衡量的是“一个白人在其居住的社区里,遇到另一个白人的概率,比随机概率高出多少”。如果一个社区只有白人,指数就是100(完全隔离);如果社区里白人和黑人的比例与整个城市完全一致,指数就是0(完全融合)。在互联网研究中:研究者将其变量置换。它衡量的是“一个保守派用户访问的网站,其受众也主要是保守派的概率”。这个问题实际是在问:你在网上冲浪时,是不是只去那些“和你观点一致的人”扎堆的地方?
注9:Gentzkow,M.,&Shapiro,J.M.(2011).Ideological Segregation Online and Offline.
注10:https://www.pewinternet.org/2014/08/26/social-media-and-the-spiral-of-silence/
注11:Bakshy,E.,Messing,S.,&Adamic,L.A.(2015).Exposure to ideologically diverse news and opinion on Facebook.
注12:Flaxman,S.,Goel,S.,&Rao,J.M.(2016).Filter Bubbles,Echo Chambers,and Online News Consumption.
注13:Dubois,E.,&Blank,G.(2018).The echo chamber is overstated:the moderating effect of political interest and diverse media.
注14:Guess,A.,Nyhan,B.,&Reifler,J.(2018/2021).Avoiding the Echo Chamber about Echo Chambers.
注15:针对Facebook&Instagram(Meta)的推荐算法,来自于2023年7月在Science/Nature发布的四篇连载论文。其中一篇封面专题:How do social media feed algorithms affect attitudes and behavior in an election campaign?https://www.science.org/doi/10.1126/science.abp9364
注16:PNAS(美国科学院院刊)2024年2月。Causally estimating the effect of YouTube’s recommender system using counterfactual bots https://www.pnas.org/doi/10.1073/pnas.2313377121