扫码打开虎嗅APP
本文来自微信公众号:新智元 (ID:AI_era),作者:Aeneas,原文标题:《社牛鹦鹉学会视频交友!LeCun嘲讽:叫大模型随机鹦鹉,太辱鹦鹉了》,头图来自:视觉中国
大语言模型是随机鹦鹉?不,它们还差得远。
美国东北大学的研究人员发现,鹦鹉们想念自己的朋友时,会主动给朋友打视频。
LeCun转发了这篇文章,评论道:“称LLM为随机鹦鹉,真是对鹦鹉的侮辱。”
“随机鹦鹉”这个梗,出自华盛顿大学语言学家Emily M. Bender等人在21年发表的一篇论文《随机鹦鹉的危险:语言模型是否太大了?》。
随后,人们时常用这个梗来讽刺ChatGPT等大语言模型并不理解真实世界,只是像鹦鹉一样随机产生看起来合理的字句。
如今,连鹦鹉都会隔着视频交友了,与这种高级的理解力相比,LLM真是弱爆了。
鹦鹉想朋友的时候,会打电话
那么,让LeCun感慨LLM弱爆了的鹦鹉们,具体做了什么呢?
我们来看看东北大学学者联合MIT、Glasgow大学,展开的这项研究。
他们发现,当一只鹦鹉想念自己的鹦鹉朋友时,会给它打视频电话,这让它感到很幸福。
实验纪录图片
研究者们向一群不同物种的鹦鹉和照顾它们的人,展示了如何用平板电脑和手机互相打视频电话。
他们想知道,如果有选择,鹦鹉们会互相打电话吗?
答案是,它们会。
实验纪录视频
这些鹦鹉只要想,就会随时call自己的小伙伴,而且它们很明白,视频对面的,就是自己真正的鹦鹉同伴。
一位照顾鹦鹉的人说,这只鹦鹉通过视频从自己的朋友那里学会了很多技能,比如觅食、新的声音,甚至学会了飞。
用他的话说,“它只要一通话就神采奕奕,仿佛活了过来。”
一只叫Ellie的凤头鹦鹉,和一只叫Cookie的非洲灰鹦鹉成为了朋友。“都一年多了,它们还会经常聊天。”
研究者发现,鹦鹉们打电话时发出的声音,跟它们在野外时彼此交流的方式很像。比如它们会说“我在这里!”
实验纪录图片
这种发现其实并不稀奇,研究者们早就发现,凤头鹦鹉和非洲灰鹦鹉都已经表现出了与小学生相当的认知能力。它们能够通过视觉,理解屏幕中的动作。
而人气最高、最受欢迎的鹦鹉,就是最常给小伙伴打电话的鹦鹉。
没错,就是在鹦鹉中,也有社牛。
而鹦鹉们的互动模式,跟人类社会化的互动很像。
有趣的是,鹦鹉们当然很喜欢打电话,但人类参与者也在这个过程中发挥了很大作用。
某些鹦鹉非常喜欢从人类那里得到额外的关注,还有些鹦鹉,似乎对屏幕另一侧的人类产生了依恋。
有18只鹦鹉参与了这项实验。它们的照顾者会教它们,如果想打电话,就摇铃铛。
如果哪只鹦鹉摇铃了,照顾者就会在平板电脑给它们展示出其他鹦鹉的照片,让它们选择想要call谁。
在一个时长三小时的视频会议期间,鹦鹉们会跟彼此说话,还会用喙轻敲屏幕。
如果哪只鹦鹉出现了恐惧或者攻击性的迹象,人类照顾者就会让通话结束。
实验纪录图片
18只鹦鹉中,15只坚持到了研究的最后,3只很早就退出了。
这个过程也并不像我们想的那么容易。鹦鹉们对于选择哪些鸟当自己的朋友,可谓非常挑剔。
如果没调解好这场互动,有的鹦鹉会很害怕,有的则会暴怒,这会造成人类的财产损失——一些体型较大的鹦鹉,足以用喙将iPad撕成碎片。
不过总的来说,研究结果表明,视频通话显著改善了鹦鹉们的生活幸福感。
实验纪录视频
因为身体原因,很多鹦鹉无法靠近其他鸟类。而视频通话弥补了它们的缺憾。
两只体弱多病的老年雄性金刚鹦鹉成功配对了——此前,它们在一生中几乎从没见过自己的同类。
两只鹦鹉结下了深厚的友情,隔着屏幕,它们会一起热情地唱歌、跳舞。如果哪一只移出了屏幕,另一只会开始大喊“嘿!你出框了!快回来!”
研究者Hirskyj-Douglas说:“这确实说明了这些鸟类的认知能力和自我表达的能力有多么复杂,多么强大。”
实验纪录图片
网友锐评:当然了
而对于LLM和鹦鹉的差距,LeCun在评论区给出了更为详实的解释。
一只鹦鹉的大脑有20亿个神经元,4x10^12个突触。一只鹦鹉的基因组大约有10亿个DNA碱基对或250MB。只有一小部分编码大脑。而大脑不适合基因组。一个大语言模型为350GB。
对于LeCun的说法,众网友纷纷表示赞同。
这位网友表示,LLM当然跟鹦鹉没法比了。与数十亿年的进化相比,LLM算什么?
“AI虽然通过了司法考试,但让它发展出像鹦鹉一样的智能,仍然是遥遥无期。”
“为了模仿这些鹦鹉的行为,我们在LLM和其他AI系统方面,都还有很长的路要走。”
“但我们是否需要重新创造存在主义的配对动机和社会蜂群行为?这些是生物所需要的生物学特性,而不是系统所需要的。”
“鹦鹉是鸟类中的智慧担当。它们可以交流,但它们并没有乔姆斯基意义上的语言,不过它们可以理解彭罗斯意义上的语言。”
“猴子和类人猿也没有语言,或者说它们可能有,但它们很好地隐藏了这一点。”
“LLM让我们发现,在语言禁锢下的人类,实际上就是随机鹦鹉。而实际上,鹦鹉为彼此提供了真正的参考实践。”
有网友指路创造“随机鹦鹉”这个说法的Emily Bender的播客。在那段视频中,Emily解释了为什么我们希望ChatGPT的文本中存在意义。
为什么LLM不明白自己在说什么
ChatGPT之类的大语言模型,是否能理解自己在说什么?是否能像人类一样理解单词?
有心理学家和认知科学家对此展开了调查。
此前人们就发现,如果问GPT-3,要弄平皱巴巴的裙子,你会选热水瓶还是发夹?它选了发夹。
如果在快餐店工作时需要包住头发,用三明治包装纸还是汉堡包?它选了汉堡包。
如果需要给炉灶扇风,是选石头还是地图?它选了石头。
一名认知科学博士最近用这三个场景测试了GPT-3,它全部选错了。
为什么它会做出这么蠢的选择?因为LLM并不像人类那样理解语言。
一名心理学专家在20多年前就提出了上述场景,来测试当时语言模型的理解能力。
从一万亿个例子中,GPT-3注意到了一个单词后会更可能出现哪些其他单词。
语言序列中强大的统计规律性,让GPT-3似乎掌握了语言。因此,ChatGPT能生成合理的句子、散文、诗歌和计算机代码。
但是,GPT-3完全不明白,这些词对人类究竟意味着什么。
人类是随着身体进化而来的生物实体,需要在物理和社会世界中运作以完成任务。而语言,是帮助人们做到这一点的工具。
而GPT-3和人类的区别是,它并不需要在现实世界中做任何事情。
单词或句子的含义与人体密切相关,包括人们行动、感知和产生情绪的能力。
人类的认知是通过具体化来增强的。比如,我们对“三明治包装纸”的理解包括它的外观、手感、重量,以及我们会如何使用它。
所有这些用途的出现,都是因为人体的本性和需求:人们有可以折纸的手,有一头与三明治包装纸差不多大的头发,以及人类需要被雇用,因此需要遵守包住头发的规则。
而这些信息,从未被LLM捕获。
GPT-3、GPT-4、Bard、Chinchilla和LLaMA等LLM都没有身体,因此它们无法自行确定哪些物体是可折叠的,或者用心理学家J.J.吉布森的说法——affordances 。
因为人有了手和胳膊,才可以用地图煽风点火,用热水瓶来铺开皱纹。
但GPT-3只有在互联网上的文字流中遇到类似东西时,才能伪造它们。
大语言模型会像人类那样理解语言吗?除非它长出人类的身体和感官,有着人类的目的和生活方式。
研究者继续向GPT-4询问了这三个问题,它答对了。
GPT-4没有输出它分配单词的概率,因而他们无法对GPT-4进行原始分析。他们猜测,这可能是由于GPT-4从以前的输入中学到了什么,或者它的尺寸和视觉输入增加了。
GPT-4接受了图像和文本的训练,因而能够学习单词和像素之间的统计关系。
当研究者发现,你总能构建更刁钻的问题,让GPT-4也露怯。
比如问它:底部被切断的杯子和底部被切断的灯泡,哪个更适合盛水?它会选前者。
一个可以访问图像的模型,就像一个从电视中学习语言和世界的孩子。但是和人类一样,最关键的机会是,与世界互动。
最近的很多研究就采用了这种方法,研究者们训练LLM生成物理模拟,与物理环境交互,甚至生成机器人。
具身语言理解可能还有很长的路要走,但这些多感官互动,是实现这一目标的关键。
但至少在目前,ChatGPT这类大语言模型既听不懂自己说的话,也没有知觉。
参考资料:
https://twitter.com/ylecun/status/1649670485498822656
https://news.northeastern.edu/2023/04/21/parrots-talking-video-calls/
https://the-decoder.com/why-chatgpt-and-other-language-ais-dont-know-what-theyre-saying/
本文来自微信公众号:新智元 (ID:AI_era),作者:Aeneas