当AI展现“元语言能力”，意味着什么？-虎嗅网

本文来自微信公众号：范阳，编辑：范阳，作者：范阳，原文标题：《我们曾以为语言让人类独一无二：当 AI 展现“元语言能力”，意味着什么？》，题图来自：视觉中国

今天分享的话题，是我之前文章的“意识流延伸”：上周我从北京带走的阅读碎片，我提到了音乐家坂本龙一和文学家吉本隆明对谈时，他们谈到有关语言，音乐，旋律，时间，计算大脑和生物大脑，人格特质等等奇妙的联系。

而对于语言学和语言本身，还有它们和“人类之外的智能”的关系，近几年我从华裔科幻作家姜峯楠（Ted Chiang）的作品得到很多启发，尤其是《你一生的故事》和这个短篇小说改编的科幻电影《降临》，在电影里，人类与到访地球的外星种族七肢桶的语言大相径庭，全因两者的思维方式不同，或者说因为语言不同而具有完全不同的思维方式：人类的思维如轨道般线性延展，依循因果次序步步前行，而“七肢桶”的语言则是一种全景式非线性的表达，它们能同时“看到”许多事物的多重因果，以整体性的方式描述世界，仿佛在瞬间看透了整部“宇宙电影”的过去与未来。

另外一位给我启发的人工智能和语言学的交叉研究者是加州大学伯克利分校的语言学家加斯珀·贝古什（Gašper Beguš），以及他的太太尼娜·贝古什（NinaBeguš），她是加州大学伯克利分校科技、医学与社会研究中心的研究员兼讲师。加斯珀·贝古什主要和团队一起观察抹香鲸在自然栖息地的行为，并通过“鲸类翻译计划”（CETI项目），运用人工智能和其他先进技术，尝试解读抹香鲸的“元语言”，再把这些发现应用于人工智能和跨物种的交流和通信。

而尼娜·贝古什最近刚刚出版了她的新书《人工人文学：从虚构视角探讨AI语言》（Artificial Humanities）。

不过从AI和科技投资的视角，“元语言”（metalinguistic）也是个很有趣的话题，某种“元语言”的界面可能是下一个ai chatbot（聊天机器人界面），谷歌在发明了transformer架构以后，并没有太认真想这个抽象的技术如何跟普通用户发生联系，也没有想到聊天机器人会是释放人工智能巨大潜力的那个交互形式。我一直对能够让人、机器和“非人类生命”之间沟通/协作成为可能的智能层（cross-ecosystems intelligence layer）和界面（interface）感兴趣，这样的界面应该类似于一种“有默契的”沟通空间（communication space)，或者动态的游乐场（playground）。这需要优秀的工程师和设计者去探索，还没有确定的答案。

另一个我感兴趣的主题（thesis）就是从生物多样性到智能的多样性，以及这个主题之下的数据/资产，本地化的AI模型，信任关系和公平协议，地理位置等等。如果这些关键词引起了你的思考，也欢迎找到我交流。

学习一门“第二外语”，拥有新的思维和听懂“另外的智慧”，永远都不晚。希望今天的文章对你有启发。

人工智能首度在语言分析方面达到专家水准（For the First Time，AI Analyzes Language as Well as a Human Expert）

作者：Steve Nadis，Quanta Magazine ，编辑：范阳，发表日期：2025年10月31日

If language is what makes us human，what does it mean now that large language models have gained“metalinguistic”abilities?

如果说语言定义了人之为人的核心，那么当大型语言模型开始具备“元语言”（metalinguistic）能力时，这究竟意味着什么？

在人类拥有的无数能力中，究竟哪些是唯人类所独有的？至少从亚里士多德提出"人是拥有语言的动物"这一论断起，语言始终是最具竞争力的候选答案。即便如今像ChatGPT这样的大型语言模型已能表面模仿日常对话，研究者们仍在追问：人类语言中是否存在某些特质，既无法在其他动物的交流系统中找到对应，也无法被人工智能设备所复现（no parallels in the communication systems of other animals or artificially intelligent devices）？

值得注意的是，研究人员正在探索语言模型对语言本身进行推理的能力边界。语言学界的部分学者坚持认为，语言模型不仅目前不具备推理能力，其本质更决定了它们永远无法拥有这种能力。这一立场在2023年得到了著名语言学家诺姆·乔姆斯基（Noam Chomsky）与两位合著者的鲜明阐述，他们在《纽约时报》撰文指出：“对语言的正确解释是复杂的，无法仅通过浸泡在海量数据中获得。”这些学者主张，人工智能模型或许能熟练运用语言，却不可能真正以复杂精密的方式解析语言本身。

这一观点在最近一篇研究论文中受到了直接挑战。该论文由加州大学伯克利分校的语言学家加斯珀·贝古什（Gašper Beguš）、刚取得该校语言学博士学位的马克西米利安·达布科夫斯基（Maksymilian Dąbkowski），以及罗格斯大学的瑞安·罗兹（Ryan Rhodes）共同完成。研究团队对多个大语言模型进行了系统的语言学测试—其中一项关键测试，是让模型从一种“虚构语言”中归纳出语法规则（having the LLM generalize the rules of a made-up language）。尽管大多数模型未能像人类那样解析语言规则，但有一个模型展现出了远超预期的卓越能力：它能够以接近语言学专业研究生的水平分析语言，能够对句子进行结构分析，处理多重歧义，并灵活运用递归等复杂的语言学特性。正如贝古什所说，这一发现“挑战了我们对人工智能能力边界的理解”。

这项新研究既合时宜又“至关重要”，耶鲁大学计算语言学家（a computational linguist）汤姆·麦考伊（Tom McCoy）评价道。虽未参与此项研究，他指出：“随着社会对这项技术的依赖日益加深，厘清其能力边界与局限变得越发关键（it’s increasingly important to understand where it can succeed and where it can fail）。”他补充说，语言分析（Linguistic analysis）正是评估这些语言模型能在多大程度上进行类人推理的理想试验场。

无限递归的复杂性（Infinite Complexity）

要给语言模型设计一套严格的语言学测试，其中一个难点在于：如何确保模型事先并不知道答案。这些系统通常是在海量文本上训练的—不仅包括互联网中成堆的内容，涵盖数十甚至上百种语言，还包括语言学教材之类的专业资料。从理论上讲，模型完全可能只是把训练时“吃进去”的信息记下来，然后在测试中原样吐出。

为避免这种情况，贝古什与同事设计了包含四个环节的语言学测试。其中三个环节要求模型使用树状图分析特制句子（asking the model to analyze specially crafted sentences using tree diagrams）—这种分析方法最早出现在乔姆斯基（Chomsky）1957年的里程碑著作《句法结构》中。树状图将句子分解为名词短语和动词短语，继而细分为名词、动词、形容词、副词、介词、连词等成分。

测试的一个重点聚焦于递归能力（focused on recursion）——即将短语嵌套进短语的能力（the ability to embed phrases within phrases）。“天空是蓝色的”（The sky is blue）是个简单英文句子；“简说天空是蓝色的”（Jane said that the sky is blue）则将原句嵌入稍复杂的结构中。关键在于，这种递归过程可以无限延续：“玛丽亚怀疑萨姆是否知道奥马尔听说简曾说过天空是蓝色的”（Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue）虽显冗长，但仍是语法正确的递归句（recursive sentence）。

乔姆斯基等人曾将“递归”称为人类语言的决定性特征之一，甚至可以说，是人类心智本身的一个核心特征（a defining characteristic of the human mind）。语言学家认为，正是递归这种几乎没有上限的能力，使得人类语言能够依靠有限的词汇和有限的规则，生成无限多种可能的句子（its limitless potential is what gives human languages their ability to generate an infinite number of possible sentences out of a finite vocabulary and a finite set of rules）。迄今为止，还没有令人信服的证据表明，其他动物能够以复杂、系统的方式使用递归。

递归既可以出现在句首或句尾，但最难掌握的一种形式，被称为“中心嵌套”（center embedding），它发生在句子中部。比如，从“the cat died（猫死了）”变成“the cat the dog bit died（那只被狗咬过的猫死了）”，中间插入了一个新的从句结构。

在贝古什设计的测试中，研究者向语言模型输入了30个原创句子，这些句子都包含了颇具挑战性的递归用法。举例来说：“The astronomy the ancients we revere studied was not separate from astrology.（我们尊崇的古人所研究的天文学，与占星术并非泾渭分明）”在借助句法树进行分析时，其中一个语言模型OpenAI的o1，成功判断出该句的结构如下：

其结构可解析为：【天文学[古人[我们所敬仰的]曾研究]】与占星术并非泾渭分明。

The astronomy[the ancients[we revere]studied]was not separate from astrology.

该模型进一步展示了递归能力，为原句增添了新的嵌套层次：

【天文学[古人[我们敬仰[那些曾生活在我们珍视土地上的人]]所研究]】与占星术并非泾渭分明。

The astronomy[the ancients[we revere[who lived in lands we cherish]]studied]was not separate from astrology.

包括贝古什（Gašper Beguš）本人在内的研究者们未曾预料到，这项研究竟会揭示出人工智能模型具备更高层次的“元语言能力”（metalinguisticcapacity）——用他的话说，这不仅是使用语言的能力，更是“对语言进行思考”的能力（the ability not just to use a language but to think about language）。

卡内基梅隆大学计算语言学家大卫·莫滕森（David Mortensen）指出，这正是该论文“引人注目”的要点之一。他虽未参与研究，但强调学界长期存在争论：语言模型究竟只是在预测句子中的下一个词（或语言单元），还是真正具备了人类那种深层的语言理解能力。“语言学领域曾有人认为大语言模型并未真正掌握语言（Some people in linguistics have said that LLMs are not really doing language），”他说，“而这项研究似乎让此类论断站不住脚了。”

语义的模糊边界（What Do You Mean?）

麦考伊（Tom McCoy）对o1模型的整体表现感到惊讶，尤其惊叹于其识别语义模糊性的能力——“这向来是计算语言模型难以攻克的经典难题”。人类“拥有大量常识性知识，能帮助我们排除歧义，但计算机很难达到这种常识理解水平”。

以“罗恩喂了他的宠物鸡”（Rowan fed his pet chicken）这个句子为例，这句话就存在两种解读：它既可能指罗文喂养了自己当作宠物的那只鸡，也可能指他把鸡肉作为食物喂给了自己的宠物（假设那是一只更“传统”的宠物）。o1模型正确地给出了两棵不同的句法树：一棵对应前一种解释，另一棵对应后一种解释。

研究者们还进行了与音系学相关的实验—音系学（phonology）研究的是语音的模式，以及最小的语音单位（称为音位，phoneme）是如何被组织起来的（the study of the pattern of sounds and of the way the smallest units of sound，called phonemes，are organized）。要像母语者一样流利地说话，人们会遵循一整套音系规则；这些规则往往是在长期使用中“自然习得”的，而非通过明确教学学来的。比如在英语中，如果在以“g”结尾的单词后加上“s”，发音会变成类似“z”的声音，如dogs；但如果是在以“t”结尾的单词后加“s”，听起来更接近清晰的“s”，如cats。

在音系学任务中，研究团队构造了30种全新的“迷你语言”（这是贝古什的说法），用来测试这些大型语言模型是否能在毫无先验知识的情况下，正确推断出其中的音系规则。每一种语言都由40个虚构的词（made-up words）构成。以下是其中一种语言的一些示例词汇：

θalp
ʃebre
ði̤zṳ
ga̤rbo̤nda̤
ʒi̤zṳðe̤jo

接着，研究者让语言模型去分析每一种语言中的音系过程（the phonological processes of each language）。对于其中一种语言，o1正确地写道：“当一个元音紧接在一个同时具备‘浊音’和‘阻碍音’特征的辅音之后时，这个元音会变成一种带有气声的元音。”所谓阻碍音，是通过限制气流形成的音，比如英语中top里的“t”。

由于这些语言都是全新虚构的，o1不可能在训练过程中接触过它们。“我完全没想到结果会这么强、这么惊人，”莫滕森说。

究竟是不是人类独有？（Uniquely Human or Not?）

那么，这些语言模型究竟能走多远？它们是否只要不断“变大”——叠加更多算力、更复杂的结构、更多训练数据—就能无限提升？还是说，人类语言的某些特征其实源自只属于我们这个物种的进化过程？

最新的研究结果表明，从原理上讲，这些模型确实能够完成相当复杂的语言学分析。但到目前为止，还没有任何一个模型真正提出过原创性的见解，也没有教会我们任何此前未知的语言知识。

如果进步仅仅取决于算力和训练数据的增长，那么贝古什（Gašper Beguš）认为语言模型终将在语言技能上超越人类。莫滕森则指出，现有模型仍存在局限：“它们被训练来完成非常特定的任务：根据已有的词元序列预测下一个词元。受限于训练方式，它们在泛化能力上仍有不足。”

但鉴于近期的突破性进展，莫滕森认为语言模型最终实现对人类语言的超越级理解只是时间问题：“我们迟早能构建出更具创造性、用更少数据实现更好泛化能力的模型。”

贝古什总结道，这些新发现正持续“侵蚀”那些曾被认为是人类语言专属特质的领域。“我们似乎并没有自己曾经想象的那么独特。”

本文经许可转载自 Quanta Magazine。Quanta Magazine 是西蒙斯基金会旗下的独立编辑出版物，致力于通过报道数学、物理以及生命科学领域的研究进展与趋势，提升公众对科学的理解。

原文链接：https://www.wired.com/story/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert/

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

当AI展现“元语言能力”，意味着什么？

人工智能首度在语言分析方面达到专家水准（For the First Time，AI Analyzes Language as Well as a Human Expert）

无限递归的复杂性（Infinite Complexity）

语义的模糊边界（What Do You Mean?）

究竟是不是人类独有？（Uniquely Human or Not?）

大 家 都 在 搜

大家都在搜