扫码打开虎嗅APP
本文来自微信公众号: Web3天空之城 ,作者:Web3天空之城,原文标题:《Andrej Karpathy 最新2万字神级访谈:我已彻底停止手写代码!陷入“AI精神错乱”,看到了传统教育的终结与Token吞吐量的绝对霸权》
城主说|在人工智能的演进史上,2026年可能是一个很重要的年份--可以自主的AI智能体开始实用化的一年。当大多数人还在惊叹于大语言模型的对话能力时,顶尖的开发者们已经悄然完成了一场范式转移。前OpenAI创始成员、特斯拉前AI负责人Andre Karpathy在今天放出的深度访谈中,用一种近乎“技术精神错乱”的热情,描述了他如何从代码的编写者转变为智能体(AI Agents)的指挥官。
在Karpathy看来,传统的软件工程正在消亡,取而代之的是一种通过向智能体传达意志来“显现”软件的新型艺术。这不仅仅是工具的更迭,更是人类生产力逻辑的底层重构。
视频全文:
00:00:00编程范式的代际革命:从手写代码到智能体工作流转变
00:11:45软件交互的底层重构:API优先模式与智能管家兴起
00:23:16应对AI能力的不均衡:自动化研究与递归式自我改进
00:33:03智力劳动的未来分布:去中心化科研与就业市场重构
00:43:45行业竞争与开源愿景:前沿实验室与独立研究的影响力
00:54:20从数字到原子:机器人技术进展与未来教育的重构
核心观点:
•编程的本质已从手动编写代码转向向智能体传达意志,传统意义上的“写代码”正在过时。
•Token吞吐量正在取代GPU算力,成为衡量个人与组织生产力的核心指标。
•未来软件将从繁琐的UI转向API驱动,智能体将作为“智能粘合剂”取代传统的应用程序。
•科研的终极目标是实现递归自我改进,必须通过自动化实验闭环将人类从“决策瓶颈”中释放。
•“参差感”是当前AI的核心特征:它既可以是系统编程的博士生,也可以是讲五年前冷笑话的白痴。
•教育体系将被彻底重组:人类的职责是产出核心直觉,而智能体凭借无限耐心承担教学重任。
编程范式的终结:从“编写代码”到“显现意志”
在过去的几个月里,Karpathy的工作流程经历了剧烈的震荡。他透露自己已经从过去80%时间亲手写代码,转变为“20%自己写、80%指派给AI”,甚至在某些阶段,他基本不再敲击一行代码。
“‘编写’这个动词已经不再准确了,我必须每天花16个小时向我的代理程序传达我的意愿。”Karpathy指出,这种转变标志着软件工程进入了“意志显现”阶段。开发者不再关注具体的语法实现,而是关注如何构建更好的指令、如何优化代理框架。这种状态虽然令人着迷,却也带来了一种前所未有的焦虑感——如果不能站在智能体协同的最前沿,就会产生严重的技能滞后感。
Token吞吐量:AI时代的新生产力瓶颈

在GPU算力被视为硬通货的今天,Karpathy提出了一个更具前瞻性的衡量维度:Token吞吐量。他观察到,顶尖工程师如Peter Steinberg已经开始像指挥乐团一样操纵多个智能体,同时开启十个代码库的会话并进行宏观调度。
“理想情况下,当你用完了Codex的额度,就应该切换到Claude。如果订阅额度还有剩余,我会感到焦虑,那意味着我没有实现Token吞吐量的最大化。”Karpathy将这种心态比作攻读博士期间对GPU空转的恐惧。在智能体时代,人类成为了系统的瓶颈。如果一个工程师不能同时并行处理多个任务,不能最大化调用他所能获取的Token,那么他就在浪费这个时代最核心的生产资源。
Dobby效应:当传统软件消亡于API之中
Karpathy分享了一个名为“Dobby”的家庭自动化案例,揭示了软件形态的未来。他仅通过几个提示词,让智能体自主扫描局域网、逆向工程Sonos系统API,并整合了灯光、空调、安防等多个互不兼容的系统。
“我过去常使用大约6个完全不同的应用程序。现在我不再需要它们了,Dobby用自然语言控制一切。”这一实践引出了一个深刻的商业预判:未来或许不再需要那么多定制化的UI界面。软件的客户将不再是人类,而是代表人类行事的智能体。这意味着整个行业必须重构,“一切都应该更多地表现为暴露出来的API端点,而智能体正是其中的智能粘合剂。”

自主研究:让实验室实现递归式自我进化
在科研领域,Karpathy正在推动“自主研究(Auto Research)”的实验。他发现,即使是像微调GPT-2这样他已经从事了二十年的老牌任务,智能体在无人干预的情况下运行一整晚,竟然找到了他从未发现的超参数优化方案。
“你必须将自己从瓶颈中解放出来。你不可能一直守在那里提供提示,你必须进行系统编排,使一切实现完全自主运行。”这种递归自我改进的理念正是前沿实验室的核心战场。Karpathy认为,未来的研究组织将是一套描述角色的Markdown文件,即“Program MD”。人类研究员不应触碰执行细节,而应在元优化层面调整组织的结构和策略。
智能的参差感:在超级天才与蹩脚笑话之间
尽管智能体展现了惊人的杠杆效应,但Karpathy提醒人们注意当前AI表现出的“严重参差感”。这种不均衡性在代码生成等可验证领域表现极佳,但在幽默感或意图理解等模糊领域则显得滞后。
“它既像是一位终身从事系统编程的博士生,又像是一个只会讲五年前蹩脚笑话的10岁孩子。”这种现象源于当前强化学习(RL)的局限性:只有在目标明确、可自动验证的任务上,AI才能像光速一样进化。而在那些超出RL范畴的领域,智能体往往会陷入停滞。这种“参差不齐”意味着我们目前还不能完全放手,人类的判断力在非标准化的领域依然不可或缺。

开源生态与“先知型AI”的权力平衡
作为开源精神的长期拥护者,Karpathy对闭源实验室的垄断保持着东欧式的警惕。他观察到开源模型与闭源前沿的差距已缩短至6到8个月,并认为这是一种健康的生态平衡。
“我默认对那种封闭状态非常怀疑。我希望存在一种稍微落后于前沿的通用智能空间,作为一种权力平衡。”他预测未来将出现“智能的物种分化”:闭源实验室提供“先知型AI”处理诺贝尔奖级别的突破,而开源模型则吞噬掉绝大多数基础应用场景。此外,他大胆设想了一种“计算资源换取科研贡献”的模式,让互联网上的不可信算力池通过智能体协作,共同挑战顶级实验室的霸权。
教育的终局:人类直觉遇见无限耐心的解释者
访谈最后,Karpathy谈到了教育的重构。他以仅有200行代码的micro-GPT项目为例,解释了为什么他不再愿意向人类解释技术细节。
“我不再需要向人类解释了,我是在向智能体解释。如果智能体理解了,它们就能以无限的耐心向人类重传这些知识。”在他看来,传统教育中传授知识的功能将被智能体彻底重组。人类唯一的护城河在于产出那些智能体尚无法构思的核心直觉和战略规划。












Sara:“编写”这个动词已经不再准确了,但我必须每天花16个小时向我的代理程序表达我的意愿。
Andrej Karpathy:体现出来。我该如何不仅拥有一场Claude Code、Codex或其他此类代理框架的会话?我该如何拥有更多这样的会话?我该如何恰当地做到这一点?代理部分现在被视为理所当然。现在,那些类似Claws的实体也被视为理所当然。现在你可以拥有多个这样的实体。现在你可以向它们下达指令。现在你还可以对这些指令进行优化。但这就是为什么它会演变成一种精神错乱状态,因为这一切是无限的,且所有问题都被归结为技术水平问题。
Sara:听众朋友们,欢迎回到No Priors。今天我和Andrej Karpathy在这里,我们将为大家带来一场内容广泛的对话,探讨代码智能体、工程与AI研究的未来、如何让更多人参与到研究中来、机器人领域正在发生的变化,以及他对智能体如何在下一个时代接入现实世界和教育的预测。
欢迎你,Andrej。Andrej,感谢你抽出时间来做这次访谈。
Andrej Karpathy:感谢邀请我来。
Sara:过去几个月AI领域的发展非常令人振奋。我记得有一次走进办公室时,你表现得非常专注,我问你在忙什么,你说:“我必须每天写16小时代码”,或者说“写代码”已经不是正确的动词了,而是我必须每天花16小时向我的智能体传达我的意志。将意志显现出来。能力确实迎来了一次飞跃。发生了什么?跟我聊聊你的经历吧。
Andrej Karpathy:我感觉自己一直处于一种持续的、甚至现在也常有的AI精神错乱状态,因为个人所能取得的成就有了巨大的突破。过去,你的能力受限于打字速度等因素,但现在有了这些AI Agent,可以说在12月时,情况发生了一些本质上的转变。我从以前80%的时间自己写代码、20%的时间指派给AI,变成了20%自己写、80%指派给AI。现在甚至不止这个比例了,自12月以来,我基本没怎么敲过一行代码,这是一种极大的转变。
我当时正在和别人谈论这件事,比如,我正在和我的父母等人谈论这个话题。而且普通人并没有意识到这件事已经发生了,或者说没有意识到它有多么戏剧性。真的,如果你随便找一个坐在办公桌前的软件工程师看看他们在做什么,你会发现他们构建软件的默认工作流从12月起就彻底改变了。所以我现在处于一种精神错乱的状态,一直在尝试弄清楚到底什么才是可能的,并试图将其推向极限。
现状如何?我该如何不仅仅进行单次会话,比如使用Claude Code、Codex或其他一些Agent开发框架?我该如何拥有更多这样的工具?我该如何恰当地做到这一点?然后我该如何使用这些“爪子”(Claws)?这些“爪子”到底是什么?所以这里有很多新事物。我要站在这些事物的前沿。而且对于没有站在前沿这件事,我感到非常焦躁。我在Twitter上看到很多人在做各种各样的事情,它们听起来都像是非常棒的想法。我需要站在前沿,否则我会感到极度焦虑。所以我猜我正处于一种对可能性感到着迷的心理状态中,因为这一切尚未被开发。
Sara:如果你感到焦虑,那我们其他人也就感到焦虑了。我们在Conviction有一个合作的团队,他们的工作模式是,所有的工程师都不再手写代码了。他们全都配备了麦克风,整天对着他们的agent低声细语。这是有史以来最奇怪的工作环境。那时候我以为他们疯了。而现在我完全接受了,这才是正道。你只是走在了前面。那么,你现在如何看待自己探索或进行项目的能力?所以,它受到了什么限制?
Andrej Karpathy:它受到了什么限制?凡事皆如此,很多事情即便没有成功,很大程度上你也会感觉是技术问题(skill issue)。并不是能力本身不存在。而是你还没找到方法,将现有的资源整合在一起。我没能在agent的MD文件或者其他类似的东西里提供足够好的指令。我没有那种足够好的记忆工具可以放进去之类的。所以当它无法正常工作时,感觉是技能问题。你想看看如何能瘫痪它们,等等。
你基本上是想成为Peter Steinberger。Peter很有名,他有一张很有趣的照片,照片里他坐在显示器前,显示器上铺满了许多他使用的Codex,也就是许多Codex智能体。如果你能正确地提示它们,并且投入高强度的精力,它们每一个大约都需要20分钟。这样你就有多个、10个处于检查状态的代码库。于是他就在它们之间来回切换,并给它们分配工作。
你可以采取更大规模的宏观行动。不仅仅是“这是一行代码,这是一个新函数”,而是“这是一个新功能”,然后将其委派给Agent 1。这是一个不会干扰其他功能的新功能。交给Agent 2去做。然后尽可能仔细地审查他们的工作,具体取决于你对那段代码的重视程度。我可以通过哪些宏操作来操控我的软件仓库?另一个agent正在进行调研,还有一个agent正在编写代码。还有一个正在为某些新的实现构思计划。因此,一切都在针对你仓库的这些宏操作中完成。你只是在努力变得非常擅长它,并培养出一种肌肉记忆。
Sara:确实非常令人满足,首先是因为它真的有效,而且这需要学习新事物,所以这也就是为什么会有那种焦虑感。我的直觉告诉每当我等待一个agent完成某项任务时,显而易见的事情就是——我可以做更多的工作。如果我能获取更多的Token,那么我就应该并行处理更多的任务。这确实压力很大,因为如果你不觉得自己受限于在Token上的支出能力,那么你就是系统中处于最大性能发挥时的瓶颈。
Andrej Karpathy:如果你至少没有用满你的订阅额度的话。理想情况下,对于多个智能体,比如当你用完了Codex的代码额度,你应该切换到Claude之类的模型。我一直在尝试这样做。而且当订阅额度还有剩余时,我会感到焦虑。那意味着我没有实现Token吞吐量的最大化。
我在攻读博士学位时就有过这种经历,当你的GPU没有在运行时,你会感到焦虑。拥有GPU计算能力,却没有最大限度地利用可用的浮点运算能力。但现在关心的不再是浮点运算,而是Token。那么,你的Token吞吐量是多少?你所能调用的Token吞吐量又是多少?
Sara:发现这一点非常有趣:在过去至少10年里,人们在许多工程任务中并不觉得受限于计算资源,整个行业现在都感受到了这一点。他们感觉自己曾经受到资源的束缚。而现在有了这种巨大的能力跃升,你会意识到,这不再是因为我获取算力的能力受限了。我才是那个限制因素。
Andrej Karpathy:这是技能问题。这非常令人振奋,因为你可以不断进步。所以它非常令人上瘾,因为当你变得更强时,会有新的潜力被解锁。
Sara:你预见这会向什么方向发展?比如如果你想象一下,Andrej和其他人每天都在迭代16个小时,不断提升使用coding agents的能力。那么在一年后当你达到精通水平时,它会是什么样子的?
Andrej Karpathy:精通到底是什么样的?是在一年、两三年、五年还是十年后等等。每个人基本上都有兴趣向更高层级迈进。所以这不仅仅关乎你与Agent的一次会话,而是多个Agent如何协作,以及团队等等的问题。每个人都在试图弄清楚那会是什么样子。Claw也是一个有趣的探索方向,当我提到Claw时,我指的是这种将持久性提升到一个全新水平的层级。它是一个持续循环的过程,而不是那种你需要时刻交互参与其中的东西。它拥有自己的小沙盒,可以在你未留意时代表你完成任务之类的操作。
此外,它可能还具备更复杂的记忆系统等,这些在目前的Agent中尚未实现。因此,OpenClaw拥有比默认机制复杂得多的记忆功能,而不只是当上下文溢出时进行的简单内存压缩。
Sara:相比于更广泛的工具访问权限,这才是引起更多用户共鸣的关键点吗?针对OpenClaw吗?干得漂亮。
Andrej Karpathy:至少有五个方面,这里面有很多非常好的创意。Peter做得非常出色。我最近见到了他,并和他聊过这件事。他表现得非常谦逊,但他在五个不同的维度上实现了同步创新,并将它们整合在了一起。比如soul.md文档。他确实精心塑造了一个既引人入胜又有趣的个性。目前很多智能体并没有把握好这一点。
Claude的个性塑造得相当不错。它感觉是你的队友,会和你一起感到兴奋等等。比如说,Codex会显得枯燥得多,这很有趣,因为在ChatGPT中,Codex的表现要活跃得多,亢奋且极度谄媚。但作为编程代理的Codex非常枯燥。它似乎并不关心你在创造什么。它不会询问我们在构建什么。
另外以Claude为例,他们对谄媚程度的控制相当到位,当Claude表扬我时,我会觉得我确实有那么一点当之无愧。因为有时候我给出的想法不太成熟,我提供的点子我自己都觉得火候未到,而它并没有给出太强烈的反应。但当那真是一个好点子时,它似乎确实会给予更多一点的肯定。所以我感觉自己像是在试图赢得它的赞许,这真的很奇怪。所以我确实认为个性非常重要。许多其他工具并没有那么看重这一点。在这方面,Peter也非常在意。然后还有记忆系统,他只是在乐在其中。以及自动化功能的单一WhatsApp入口工具。
Sara:有没有什么事是你亲自用你的claw完成的?除了软件工程之外,有趣或有意义的事?
Andrej Karpathy:在一月份的时候,我拥有了一个claw。我经历了一段claw精神错乱的时期。所以我构建了一个基本是用来打理我家务的claw。我称它为Dobby the elf claw。利用代理程序在局域网内搜索我家所有的智能家居子系统,让我惊讶的是,这居然可以直接开箱即用。我只是告诉它,觉得我家里有Sonos,你能试着找到它吗?然后它就开始对局域网内基本上所有的电脑进行IP扫描。
它发现了那个Sonos系统。结果发现它没有任何密码保护之类的措施。它直接就登录进去了。它说安装了这些Sonos系统,让我试着逆向工程一下它是如何运作的。它进行了一些网页搜索。然后发现这些是API endpoints。接着它问,你想试试吗?我的反应是,哇,你竟然就这么做到了。于是我说,能试着在书房播放点什么吗?它确实做到了。音乐随之响起。当时我就不敢相信刚刚……
Sara:这太疯狂了。只用了三个提示词。
Andrej Karpathy:真不敢相信我只是输入了类似“你能找到我的Sonos吗?”这样的内容,它竟然就开始播放音乐了。它对灯光也做了同样的操作。所以基本是进行了某种入侵,搞清楚了整个系统,创建了API,还创建了控制面板。这样我就能看到一个家里所有灯光的指挥中心。然后我能要求它不要进入睡眠模式。而处于睡眠模式时,意味着所有的灯都会熄灭。
所以它控制着我所有的照明、暖通空调、遮阳帘、泳池和水疗中心,还有我的安防系统。我在房子外侧安装了一个摄像头。每当有人出现时,我都有一个Qwen,一个用来查看视频的Qwen模型。首先,系统会进行变化检测。然后基于变化检测的结果,它会调用Qwen。接着它向我的WhatsApp发送一条短信。它会显示一张外面的图像。并提示FedEx的货车刚停下来,你可能想去检查一下邮件。还有Dobby刚发了这条短信。这太不可思议了。
所以Dobby现在负责管理这栋房子。我通过WhatsApp与它发信息交流。这个应用通过这些宏指令来维护我的房子,过程非常有趣。我还没怎么深入挖掘它的功能,哪怕仅仅是家庭自动化设置,我过去常使用大约6个完全不同的应用程序。现在我不再需要使用这些应用程序了。Dobby用自然语言控制一切。这太令人惊叹了。即便我还没有完全推动一种范式,这种体验已经非常有帮助且令人振奋了。
Sara:这是否代表了用户在软件用户体验方面的真实诉求?因为人类学习新软件或新UI所付出的努力在很大程度上是被忽视的。
Andrej Karpathy:你是对的,这是基于人们对AI应有形态的设想进行逆向推导。因为人们心中所想的AI,与从原始意义上理解的LLM并不完全是一回事。LLM只是一个token生成器,它不断产出token。但人们心目中的AI是一个具有人格身份的实体,可以交流、可以记忆,就像WhatsApp背后存在着某种个体。这要好理解得多。
这符合了人类对于AI行为方式的既有期待。但在底层架构中,涉及了许多复杂的技术细节。对于大多数人来说,LLM作为一种底层原语,不足以被称为AI。
Sara:将AI描述为Dobby或某种人格化形象显然能引起人们的共鸣。你在六个不同的家居自动化软件系统中完成的统一化处理,引出了另一个问题:人们真的想要我们今天所拥有的所有这些软件吗?既然你有硬件,你现在已经抛弃了它的软件或UI层。这是人们想要的吗?
Andrej Karpathy:人们有一种感觉,就是这些用于操作智能家居设备等的应用程序甚至不应该存在。难道不应该只有API,由Agent直接使用它们吗?我就能实现各种各样家庭自动化操作,这是任何单一应用程序都无法做到的,LLM可以驱动这些工具,调用所有正确的工具,并完成相当复杂的任务。
这指向了一种情况,或许现在生产了太多本不该存在的定制化应用程序,因为Agent可以将它们整合归并。一切都应该更多地表现为暴露出来的API端点。而Agent正是其中的智能粘合剂,负责实际调用各个部分的工具接口。
另一个例子是我的跑步机。我的跑步机有一个配套应用,我想追踪自己做有氧运动的频率。但我不想去登录网页端界面,经历繁琐的操作流程等等。这一切本应该只是提供可用的API。这是朝着Agent网络或者以Agent为核心的工具方向发展的。整个行业必须在多个方面进行重构,客户不再是人类个体,而是代表人类行事的智能体,这种重构可能会是非常彻底的。
人们有时会反驳这一点,比如:我们期望普通人通过vibe coding来使用这些工具吗?目前确实存在vibe coding的现象,我本人正在观察并与该系统进行交互。但刚才提到的这些东西,在未来一到三年内应该会变得免费。这并不涉及任何vibe coding。这是微不足道的。这是行业准入门槛。任何AI,甚至是开源模型等,都能做到这一点。
Sara:你应该能够非常轻松地将非技术人员的意图转化为这种成果。
Andrej Karpathy:如今这叫vibe coding,它很复杂,没几个人会去深究。
Sara:而且你仍然需要做出一些设计决策,以frames为例。
Andrej Karpathy:但我总觉得这种情况会开始。
Sara:门槛终将降低,它会成为为你即时生成的软件,类似Claude的东西帮你处理所有细节,而你无需深度参与;Claude拥有一台机器,它会搞定一切并向你呈现界面,你只需要表达你的想法。为什么你还没有去突破你个人利用Claude能做到的极限?是因为你专注于更重要的项目(如AI研究等),还是在为了精通技能而攀登高峰?或者只是被太多事情分散了注意力。
Andrej Karpathy:我花了一周时间研究Claude的相关内容,结果我的待办事项反而更多了。
Sara:就像Jensen告诉我们的那样,不幸的是,我们大家都变得更忙了。
Andrej Karpathy:我并没有真正利用好大量的电子邮件、日历以及所有其他工具。我也没有给它授权,因为我仍然有些疑虑,它确实非常新,不够完善。所以我还不想让它完全访问我的数字生活。部分原因是出于对安全性、隐私的考虑,以及我个人非常谨慎的态度。在某些方面它因此受到了限制。也许这确实是主要原因,但部分原因也是感到非常分心,经历了一周的忙乱,同时还有其他事情在发生。
5.自主研究(Auto Research):将人类从决策瓶颈中解放
Sara:你曾提到过将训练或优化模型作为你长期希望Agent能够完成的任务。那么,开发Auto research的动机是什么?
Andrej Karpathy:就像我之前发过的一条推文中所表达的那样,为了充分利用现有的工具,你必须将自己从瓶颈中解放出来。你不可能一直守在那里为下一步操作提供提示。你需要跳出局限,审视全局。你必须进行系统编排,使一切实现完全自主运行。你该如何最大化Token吞吐量,并让自己脱离执行闭环?这就是最终目标。
现在的关键在于提升你的杠杆效应。我只需偶尔投入极少的Token,系统便能替我完成海量的工作。关于自动研究,我发过相关推文,大家似乎很感兴趣。但人们或许还没有深究其背后的深层含义。自动研究就是一个典型案例,核心逻辑在于,我不希望自己成为研究闭环中的一环,去逐一审查结果,那反而成了系统的瓶颈。
所以问题在于,我该如何重构所有抽象层,从而不再需要参与其中?我只需完成一次编排,然后点击运行即可。这场游戏的核心在于:如何在无需你介入的情况下,让更多的智能体运行更长时间,并为你处理各项事务?自动研究的逻辑很简单:给定一个目标、一个衡量指标,明确禁区,然后让它自行运转。
Sara:你对它的高效表现感到惊讶。
Andrej Karpathy:我本来没指望它能成功,因为我有项目数据聊天记录。很多人对我关于训练GPT-2模型等内容的分享感到非常困惑。但对我而言,训练GPT模型只是一个小小的练习场,一个训练LLM的小型游乐场。更感兴趣的是递归自我改进这一理念,以及LLM在多大程度上能够真正实现自我优化。所有前沿实验室都在关注这一点。都在尝试实现递归式自我改进。
所以这就是一个相关的微型试验场。我已经习惯用那种老派方式,通过手工对nanoGPT进行了不少微调。毕竟我是一名从事这行大概二十年的研究人员。我有一定程度的……那什么词与傲慢相反?
Sara:是积淀出的自信。
Andrej Karpathy:我有大约二十年的经验,曾训练过这个模型成千上万次。所以我做过大量的实验。我做过超参数调优。我做过所有非常熟悉、且已从事了二十年的工作。我已经做到了一定程度,本以为它已经调整得相当不错了。然后我让研究程序运行了一整晚,结果它带回了一些我没预想到的参数调整方案。确实,我忘记了对价值嵌入进行权重衰减,而且我的Adam betas参数也没有经过充分调整。
这些因素是相互关联的。所以一旦你调整了其中一项,其他配置也可能需要随之改变。我不应该成为瓶颈。我不应该亲自去运行这些超参数或优化工作。我不应该亲自去查看结果。在这种情况下,是有客观标准可依的。所以你只需要把流程安排好就行了。这样它就可以一直运行下去。所以这是一种单一版本的自动研究,一个试图自我改进的单一循环。我很惊讶它竟然发现了这些我没注意到的东西,代码库本身已经调整得相当好了,但它依然有所发现。
而且这仅仅是一个单一的循环。前沿实验室拥有由数万个GPU组成的集群。很容易想象,你基本可以在较小的模型上实现大量此类自动化。所有关于前沿级智能的工作都围绕着外推法和缩放定律展开。你基本是在较小模型上进行大量探索,然后尝试进行外推。
Sara:如果我们能更好地进行这些实验,我们的研究工作效率将会提高,而且我们在进行规模化扩展时也会有更好的方向。
Andrej Karpathy:最有趣的项目,可能也是前沿实验室正在致力于的事情,就是对较小模型进行实验,尝试使其尽可能自动化,从而将研究人员从循环中解放出来。他们拥有的太多了,这个的反面是什么?积淀出的自信?说真的,他们其实不应该触碰这些东西。所以你必须重写整个流程,当然可以贡献想法。但是,实际上不应该去执行这些想法。
这里有一个想法队列。可能有一个自动化科学家,基于所有的档案论文和GitHub仓库来提出想法,并将这些想法汇聚进来。或者由研究人员贡献想法。但它是一个单一队列。并且有工作进程会拉取任务项并进行尝试。任何有效的结果都会被归并到功能分支中。或许会有人监控这些功能分支,并在适当时将其合并到主分支。所以,就是将人类从所有流程中移除,尽可能实现自动化,并获得每秒高吞吐量的token。这确实需要重新思考所有的抽象概念,并且一切都需要重新整合。所以这非常令人兴奋。
Sara:如果我们在这里再深入一层递归。模型什么时候能写出比你更好的program.md?
Andrej Karpathy:program.md就像是……我们并不在决策回路中。这是我尝试描述自动研究员应该如何工作的一个拙劣尝试。比如先做这个,然后再尝试这些思路。这里或许还有一些点子,比如关注架构、关注优化器等等。但我只是在Markdown里随手写下了这些。你可能需要某种自动研究循环,你可以想象不同的program.md文件会带来不同的进展。
每个研究组织都由program.md来描述。一个研究组织就是一套Markdown文件,用于描述所有角色以及整个系统是如何连接的。你可以想象拥有一个更出色的研究组织。所以也许早上参加的站会会少一些,因为那些会议毫无用处。这一切都只是代码,一个组织可以少开站会,另一个组织可以多开。一个组织可以非常热衷于冒险。另一个组织则可以保守一些。所以你完全可以想象拥有多个研究组织,而它们都拥有代码。一旦有了代码,就可以想象如何对代码进行调优。百分之百存在这样一个元层面。
Sara:你看到我关于比赛想法的短信了吗?我的竞赛创意是让人们编写不同的program.md,那么对于相同的硬件,从哪里能获得最大的提升呢?然后你可以获取所有这些数据,将其交给模型并让它编写一个更好的program.md。最终会得到更好的结果。
Andrej Karpathy:这是必然的,你能百分之百地看清改进来自哪里。是否可以修改program.md,以便完成更多这类事情?或者修改那些行不通的部分。这只是元优化。你完全可以想象那样做。这是一个好主意。但你应该一步一个脚印,先有一个流程,接着是第二个流程,然后是下一个流程。
这些就像洋葱的层级一样,LLM的部分现在已经被视为理所当然了。Agent的部分现在也被视为理所当然了。现在这些类似爪状的实体也已成为常态。现在你可以拥有多个这样的实体。现在你可以为它们下达指令。现在你可以对这些指令进行优化。这确实有点过头了,但这就是为什么它会导致精神错乱,因为这就像是无限的,且一切都成了所谓的技术问题(skill issue)。又回到了原点。这就是为什么它如此疯狂。
Sara:如果只是试图去诊断当前时刻,并判断什么是当下的相关技能,应该在不同领域尝试实现这种循环,然后它就能奏效,这其中的含义是什么?比如移除它,创建指标或者赋予Agent在没有你参与的情况下继续处理任务的能力。还需要性能工程(performance engineering)吗?
Andrej Karpathy:需要。关于LLM精神错乱(LM psychosis),还有几点告诫。第一,这极其适用于任何拥有易于评估的客观指标的事物。例如为模型XLA的各个部分编写更高效的CUDA代码,这就是完美的契合点。因为你原本的代码效率低下,而你想要的是行为完全相同但速度快得多的高效代码。很多事情非常适合进行自动研究,但许多事情则不然。如果你无法对其进行评估,就无法进行自动研究,这是第一个警示。
第二,正在谈论接下来的步骤,也大致看到了接下来的方向。但整个系统仍然有些不堪重负,存在缺陷,并没有完全跑通。如果试图推进得太远,从整体上看,反而适得其反。这些模型虽然有了很大进步,但仍然存在一些粗糙之处。我同时感觉既像是在与一位极其聪慧、终身从事系统编程的博士生交流,又像是在与一个10岁的孩子对话。这非常奇怪,人类的特质之间联系得更加紧密,一切事物之间的耦合度都要高得多。
Sara:通常不会遇到那种组合。Agent表现出的参差感要强烈得多,有时候我要求某种功能,反馈回来的结果却完全是错的。
Andrej Karpathy:这种参差不齐的特性真的很古怪。虽然人类也确实存在参差感,但表现得要温和得多。然后就会陷入完全错误的循环中。所以直到现在,对这些Agent依然感到非常沮丧。因为你能感受到它的力量。
Sara:但它们偶尔还是会对我做一些毫无统计学意义的事情。每当觉得Agent在很多客户身上浪费了算力,都会感到非常恼火。去处理一些本该识别出的显而易见的问题。
Andrej Karpathy:更深层的原因在于,这些模型是通过强化学习进行训练的。正面临着同样的问题,即实验室可以改进模型在任何可验证、且有奖励机制的任务上的表现。比如程序编写得是否正确?单元测试是否通过?是或否。但有些方面确实感到棘手,例如很难理解心里的想法,或者很难准确把握意图,以及何时该提出澄清性问题。任何感觉更温和的东西反而更糟糕。要么被锁定在轨道上,成为超级智能回路的一部分,要么脱离轨道,处在可验证的领域之外,突然间一切都变得漫无目的。
如果现在去使用最先进的模型ChatGPT,让它讲个笑话。你知道会得到什么笑话吗?
Sara:那个笑话。没法告诉你标准形式,但感觉ChatGPT好像只会讲三个笑话。
Andrej Karpathy:显然所有校友最喜欢的笑话是:为什么科学家不相信原子?
Sara:因为它们构成了一切。
Andrej Karpathy:它们什么都能编造出来。这就是三四年前会得到的笑话,今天依然会得到的笑话。尽管模型已经取得了巨大的进步。如果你给它们一个代理任务,会运行数小时为你搬动山峦。然后当要求讲个笑话时,它只会讲一个愚蠢的、五年前的蹩脚笑话。
这超出了强化学习的范畴。超出了目前正在改进的范围。这种不均衡感的一部分在于,难道不应该预期模型随着性能提升,也能讲出更好的笑话或者拥有更多样化的幽默感吗?还是说,仅仅是因为没有被优化,所以停滞不前了?
Sara:这是否意味着我们没有看到那种意义上的泛化,即那种更广泛的智能——那种与代码智能相关联的“幽默智慧”?
Andrej Karpathy:存在某种程度的解耦,即有些事物是可验证的,而有些则不然;有些事物是实验室根据输入的数据进行任意优化的,而有些则没有。
Sara:一些研究小组有一个前提假设:如果在代码生成或这些可验证领域表现得更聪明,那么应该在所有方面都更聪明。笑话的情况表明,这种假设并非在所有方面都成立。没有看到这种情况正在发生。
Andrej Karpathy:也许看到了一点点这种趋势,但远没达到令人满意的程度。
Sara:这种不均衡感在人类身上也存在。可以非常擅长数学,但依然讲出一个非常糟糕的笑话。
Andrej Karpathy:确实如此。但也意味着,并没有真正免费获得那些所谓的智能和能力,以及社会各领域的应用,即便模型变得越来越强大。**这并非其根本运作机制。其中存在一些盲点,也有一些方面并未得到优化。这一切都集中在这些神经网络模型之中,由于其不透明性,难以洞察其内部逻辑,要么处于模型训练目标的预设轨道上,像光速一样高效;要么完全偏离方向。**这就是所谓的参差不齐(jaggedness)。尽管进步显而易见,且未来发展方向也已确定,但目前还不能完全放手,因为这些模型尚未完美运行,或者说由于技能差距,还没完全掌握使用它们的方法。因此,目前很难下定论。
Sara:如果这种参差不齐的现象持续存在,且所有功能都被整合进了一个单一的集成界面中,会怎样?是否应该将其拆解,以便针对不同的智能领域进行优化和改进?更直接地说,而不是仅仅依靠我们无法接触到的MoE。因为从外部用户的角度来看,这会让人感到困惑:为什么在这一方面表现出色,而在另一方面却不行?
Andrej Karpathy:目前的印象是,各个实验室正试图打造一种单一的、类似于单一种植文化的模型,使其在所有这些不同领域都具备任意的智能。他们只是将其塞进参数中。**应该期待智能出现更多的物种分化。就像动物界中存在的大脑极其多样化。**自然界中存在许多不同的生态位。有些动物拥有过度发育的视觉皮层或其他类型的脑区结构。
并不需要一个无所不知的预言机。可以将其分化,然后让它执行特定的任务。应该能看到规模更小但仍具备认知核心的模型,它们依然能力出众,随后通过专业化,在处理真正关心的特定任务时,在延迟或吞吐量方面变得更加高效。如果是一位使用Lean的数学家,例如我已经看到有一些版本专门针对该领域进行了优化。可能会出现一些这样的案例,即这种“解绑”模式是有意义的。
Sara:现有计算基础设施的容量限制是否会推动这种趋势,因为效率确实变得更加重要了。如果不考虑资金因素,假设能够为所做的任何事情获得完全的计算资源,比如只部署单一模型,但如果确实感受到了压力,觉得无法为每个用例都提供大规模模型,这会导致某种物种形成吗?
Andrej Karpathy:感到困惑的是,目前还没有看到太多的物种形成。看到的是模型的单一文化。尽管这些模型本身已经承受着压力。
Sara:显然存在一种压力,比如打造一个优秀的代码模型,然后再将其合并回主模型中。或许是因为目前存在严重的短期供应短缺,这可能导致了现在的物种形成现象。
Andrej Karpathy:实验室是在提供一个通用模型,并不真正了解最终用户会提出什么样的问题。所以他们必须在所有可能被询问的问题上进行多任务处理。如果去寻求商业合作,并针对关注的特定问题进行合作,可能就会看到针对性的表现。未来会出现一些价值极高但更为小众的应用。但目前他们是在试图覆盖所有可触及的领域。大脑操纵的科学尚未完全发展成熟。
比如在不丧失原有能力的前提下进行微调。目前还没有除了上下文窗口之外,真正能与这些智能体协作的基础手段。context windows基本上可以直接使用,且操作成本非常低。这就是实现部分定制化的方式。关于如何更深入地调整模型、进行持续学习,或者如何在特定领域进行微调,以及如何真正触及权重而非仅仅通过context windows来处理,这些还处于发展阶段。触及权重比仅仅操作context windows要棘手得多,因为实际上是在从根本上改变整个模型及其潜在的智能。这或许还算不上是一门完全成熟的物种形成科学。
Sara:在特定的应用环境下,要让这种物种形成具有价值,其成本也必须足够低廉。关于你在Open ground提到的自动研究扩展,本质上我们需要围绕它建立更多的协作接口,以便人们能够为整体研究做出贡献。能谈谈这一点吗?
Andrej Karpathy:我们的研究有一个单一的脉络,在一个循环中尝试各种东西。但其并行化才是更有趣的部分。如果手头上有大量的并行节点,让多个自动研究员通过一个通用系统进行交流是非常容易的。
更感兴趣的是,如何利用互联网上一个不可信的作业者池。例如在研究中,只是试图找到一段能将模型训练至极低验证损失的代码。如果有人给一个候选提交,验证该提交是否正确、是否有效是非常简单的。某人可能在网上声称这段代码能带来更好的优化,并提供更好的性能。只需要检查一下即可。但这可能包含了大量的核查工作,且他们可能会撒谎。
这看起来确实有点像结合了不可信工作者池的设计。事实上,有点像区块链。拥有的不是区块,而是commits。这些commits可以彼此叠加。包含了改进代码时的变更。而工作量证明(proof of work)本质上就是通过大量的实验来寻找有效的commits。这很难。而目前的奖励仅仅是进入排行榜,没有任何形式的经济奖励。
它存在这样一个问题:虽然搜索过程投入了巨大成本,但验证候选方案是否确实有效却非常廉价,因为只需要训练一次。换句话说,有人必须尝试10000个点子,但只需要检查产出的成果是否可行,因为那99000个尝试都失败了。
必须建立一套系统,让一个不受信任的工作者群体能够与一个负责验证的受信任工作者群体协作。整个流程是以某种异步方式运行的。从安全角度来看,这非常稳妥,因为如果有人向你发送任意代码而要去执行它,那是非常危险且不可靠的。但这是完全可行的。像SETI at home和Folding at home这样的项目。在Folding at home中,正在折叠蛋白质,要找到一种低能量的构象非常困难。但如果有人发现了一种低能量的配置,完全可以直接使用。可以轻松地对其进行验证。
许多事物都具有这种特性:构思起来非常昂贵,但验证起来却非常廉价。在所有这些情况下,像Folding at home、SETI at home或Auto Research at home这样的项目都会非常契合。长话短说,互联网上的智能体群可以协作改进LLM,甚至可能在某些方面超越Frontier Labs。Frontier Labs拥有海量的可信算力,但地球要大得多,并且拥有海量的不可信算力。如果能建立起相应的制衡系统来处理这些问题,分布在世界各地的智能体群或许真的能够提出更优的解决方案。人们会愿意为关心的事业贡献计算资源。
所以,抱歉,最后一点想法是,许多公司或机构可以拥有自己关注的领域。如果拥有计算能力,就可以为不同类型的自动研究项目做出贡献。比如关注某种类型的癌症。不必仅仅向机构捐款,实际上可以购买计算资源,加入该项目的自动研究论坛。如果一切都被重新整合到自动研究者中,计算资源就成了为该资源池所贡献的内容。
Sara:这非常令人振奋,同时也很有趣。硅谷的部分受众,或者在中国零售店排队的人群,已经重新发现,拥有个人计算能力的访问权限再次变得意义非凡。也许他们有动力为了自己的需求去做这件事,然后就能为自动研究做出贡献。
Andrej Karpathy:就像美元是每个人都关心的东西,未来flops会不会成为每个人真正关心的东西?关注的重心会不会发生某种反转?现在即使有钱也很难获得计算资源,实际上flops似乎占据了主导地位。也许情况确实如此。即掌控多少flops,而不是拥有多少财富。虽然不一定是事实,但这样思考确实挺有意思。
Sara:发布的上一项内容是关于就业数据分析的。虽然只是将一些公开数据可视化,却触动了某些人的神经?当时对什么感到好奇?
Andrej Karpathy:每个人都在认真思考AI对就业市场的影响,以及未来会变成什么样。只是想看看就业市场究竟是什么样的?各种不同的职位分布在哪里?各个行业中又有多少从业者?有兴趣研究具体的案例,并思考:随着这些AI的发展,它们未来会成为人们使用的工具吗?这些工具会取代这些职业吗?现有的职业将如何演变?会大规模增长还是进行大幅调整?又或者可能会出现哪些新兴职业?
这是为自己梳理行业思考过程的一种方式。就业数据基本来自Bureau of Labor Statistics。他们为每个职业给出了百分比展望,预估在未来十年内该职业的增长幅度。
Sara:我们需要大量的医疗保健工作者。
Andrej Karpathy:并不百分之百确定得出这些预测所采用的方法论。感兴趣的是从这个角度去观察:目前主要开发的是更偏向数字化的AI,就像某种可以在数字世界中互动并处理大量数字信息的实体。目前没有物理实体或存在形式。物理层面的东西进展可能会稍慢一些,因为需要操控原子。
相比于加速物质的演变,翻转比特以及复制粘贴数字信息的能力让一切变得快了上百万倍。在能源方面,将看到数字领域出现大量的活动、大量的重写,以及大量的活跃状态。数字领域的发展速度与物理世界将要发生的变化相比,简直是光速。
很多以往由计算机和人类共同完成的数字信息处理工作,现在几乎有可能被大规模地解放出来。随着AI作为第三种操纵数字信息的手段出现,这些学科领域将进行大量的重构。但物理世界的演进在时间上会滞后于此。这也是为什么重点强调那些本质上操纵数字信息的职业,即可以在家完成的工作。情况将会发生变化。这并不意味着这些职位的数量会减少或增加,因为这与需求弹性以及许多其他因素有关。但这些职业内部将会发生变革,原因在于新工具的应用,以及人类超有机体神经系统的升级。
Sara:对于正面临就业市场的人,或是正在考虑现在应该学习什么、发展哪些技能的人,有什么观察或建议吗?我们都可以去尝试,我很庆幸现在的工作需要去接触不同的人。更偏向实体接触。
Andrej Karpathy:你的工作可以在家里完成吗?
Sara:可以。涉及人际关系的部分比较困难,但大部分工作可以居家完成。
Andrej Karpathy:这很难一概而论,就业市场极其多元,答案可能会因人而异。在很大程度上,这些工具确实非常新颖且极其强大。仅仅是尝试去跟上这些变化,就是首要任务。
Sara:很多人要么不屑一顾,要么感到恐惧,这是可以理解的。
Andrej Karpathy:目前本质上是一种赋能工具。工作是由一系列任务组成的。其中一些任务的处理速度可以大幅提升。应该将其视为目前的一种主要工具。长期特征是不确定的。很难预测。这应该是经济学家的工作。
Sara:你毕竟是一名工程师。有一点很有意思,就是对工程类职位的需求仍在持续增长。无法判断这是否属于暂时性的现象。
Andrej Karpathy:这几乎是一种需求分析,软件曾经很稀缺,对软件的需求没有进一步增长,仅仅是因为它稀缺且过于昂贵。如果门槛降低,实际上就会出现Jevons paradox,即对软件的需求反而会上升。因为它变得更便宜,而且功能更强大了。最经典的例子总是ATM和银行柜员,当时人们担心ATM和计算机基本会取代柜员。但实际情况是,它们降低了银行网点的运营成本,因此出现了更多的银行网点,进而雇佣了更多的柜员。
Sara:某样东西变得更便宜了,于是对其释放出了大量的需求。
Andrej Karpathy:在软件工程领域,对此持谨慎乐观的态度,软件需求将变得极其巨大,而且软件开发已经变得便宜多了。在相当长一段时间内,至少在当前局部来看,对于软件的需求只会越来越多。因为软件太棒了。数字信息处理,不需要被迫使用那些被强加且不够完善的工具。不需要被迫订阅现有的东西。代码现在是短暂的,可以被更改,也可以被修改。在数字空间中,将会有大量活动来重塑一切。这将为这类事物创造巨大的需求。
从长远来看,即使考虑到其他研究机构,比如OpenAI或Anthropic,雇佣的大概一千多名研究人员,他们就像是在主动地实现自我自动化,而这正是所有人都在努力做的事情。
Sara:其中一些研究人员也感受到了这种精神错乱,因为能感觉到这确实奏效了。所以会觉得,对我来说也彻底结束了。
Andrej Karpathy:确实花了很多时间在OpenAI工作,当时就在想,如果成功了,所有人都会失业,就像只是在为Sam或者董事会开发自动化系统,然后全部失业,或许只能在旁边打打下手。从这个角度来看,确实让人有些紧张。
Sara:能问一个关于Noam的问题吗?你本来可以去做那件事的,在一家处于前沿的实验室里,利用巨大的算力规模和一群同事进行自动化研究。为什么不去做呢?
Andrej Karpathy:确实在那里待过一段时间,而且重新加入过。有很多种方式来剖析这个问题。非常看好人们在那些前沿实验室之外所能做出的贡献及其影响力,不仅是在行业内部,也包括在更偏向生态系统层面的角色中。例如你的角色更倾向于生态系统层面。我目前所处的角色,也更多是在生态系统层面。
与前沿实验室绑定得太紧,确实存在各种问题。与这些前沿实验室之间存在巨大的经济利益驱动。AI将以非常剧烈的方式彻底改变人类和社会。然而你现在基本是在构建这项技术,从中获利,并且在经济层面与之深度绑定。这正是OpenAI在最初创立时所面临的核心困局。这就是试图解决的难题。这还没有完全解决。这不是一个完全自由的个体,无法以一种完全自主、自由的方式参与到对话中。如果身处某家前沿实验室内部,有些话是不能说的。组织也希望你说某些特定的话。他们不会强迫你,但会感受到压力,觉得自己应该说些什么,否则就会出现非常尴尬的对话,或者奇怪的侧目,仿佛在问到底在做什么。所以无法真正成为一个独立的个体。在尖端实验室之外,与人类的联系更紧密一些,因为几乎不受那些压力影响,可以畅所欲言。
Sara:在尖端实验室里,当然也能产生一定的影响。
Andrej Karpathy:但那里有许多研究人员,也许你就是其中之一,想法非常出色。有很多决策需要制定,希望处于那样一个位置,能够在对话发生时身处其中。目前整体的风险还相当低。所以一切看起来都还不错。但当风险真正变得极高时,如果是一家机构的员工,其实并不清楚对所在机构及其后续行动能有多大的影响力。并不是真正负责决策的人。就像身处一个房间里,在贡献各种想法,但并不负责参与的那个实体。
这些在某种程度上就是导致错位的一些根源。不得不说,非常认同这种观点。实验室无论好坏,都是不透明的,大量的工作都在那里进行。正处于能力的前沿,探索着各种可能性。正在致力于研发即将推出的新技术。如果置身于这些Frontier Labs之外,判断力从根本上会开始出现偏差,因为没有参与到即将到来的进展中。感觉自己的判断力也难免会开始出现偏差。将无法理解这些系统在底层是如何运作的。那是一个不透明的系统。将无法很好地理解未来将如何发展。保持对实际发生情况的了解,并真正进入Frontier Labs工作是非常值得的。如果一些Frontier Labs愿意邀请去工作一段时间,做出真正出色的贡献,然后再离开,这或许可行。
Sara:伙计们,他在找工作呢。这太令人兴奋了。
Andrej Karpathy:这或许是一个好的安排,这可能是一种既能保持与前沿进展的实际联系,又不至于觉得完全被那些实体掌控的方式。Noam在OpenAI可能做出非常出色的工作,但最具影响力的工作很可能是在OpenAI之外完成的。Noam,这是在呼吁你成为一名拥有自主研究权的独立研究员。
在外部有很多事情可以做。最终,理想的解决方案或许是来回切换。在这两个地方都能产生非常惊人的影响。这是一个有点沉重的问题,加入了前沿实验室,而现在在外面。也许未来还会想再次加入。
Sara:关于世界或AI生态系统对前沿领域有多少可见度,有一个相关的问题,那就是开源距离前沿领域有多近,以及这种状态的可持续性如何。这相当令人惊讶,从拥有少数Chinese models和global models开始的整个事件序列,人们在短期内会继续发布这些模型,从能力角度来看,它们比行业预期的要更接近前沿。不知道你对此是否感到惊讶,但你是开源的长期贡献者。对此有什么预测吗?
Andrej Karpathy:大致来说,闭源模型处于领先地位,但人们一直在监测开源模型落后了几个月。
Sara:起初是一无所有,然后变成了18个月。
Andrej Karpathy:已经出现了一种趋同,按照目前的情况来看,大概有八个月或者六个月左右。显然是开源的忠实拥护者。在操作系统领域,有像Windows和Mac OS这种封闭式的系统。这些都是大型软件项目,就像LLM未来将会发展成的样子。还有Linux,实际上,Linux是一个极其成功的项目。运行在绝大多数的计算机上。这是因为业界需要一个通用的、开放的平台,让每个人都能感到安全地使用。业界一直都有对这类项目存在的需求。现在的情况也是如此。这正是企业真正想要的。
巨大的区别在于资本支出非常巨大。使得在这一层面进行竞争变得更加困难。目前的模型非常好。对于绝大多数消费者用例及类似场景,可以说开源模型也已经表现得相当出色。展望未来几年,大量的简单用例将得到充分覆盖,甚至可以实现本地运行。但对于前沿智能的需求将始终存在,这实际上可能会占据市场份额中极其巨大的比例。也可能前沿智能的需求会更偏向于诺贝尔奖等级的研究工作。或者是诸如将Linux从C语言迁移至Rust这种工作。这将会是规模更大的项目。
这可能正是许多前沿闭源智能将要进行交互的领域。开源模型很可能会吞噬掉大量更基础的使用场景。在某个时间点,今天的前沿技术可能在今年晚些时候就变得普及了。就目前从闭源实验室使用的情况来看,现今的前沿技术在未来可能就会变成开源的,并发挥巨大的作用。我预期这种动态会持续下去,即拥有闭源的顶级实验室来提供如同先知般的AI,而开源模型则会以几个月的差距紧随其后。
总体上是一个相当不错的局面。对于纯粹依赖闭源智能持保留意见,仅拥有闭源智能会带来一些系统性风险。集权化在过去的历史中表现一直很糟糕。
Sara:你是说在政治或经济体制方面吗?正是如此。
Andrej Karpathy:听起来就像是东欧人说的话。希望存在一种稍微落后于前沿的、类似于智能通用工作空间的事物,让整个行业都能对其进行访问。这对行业来说是一个相当不错的权力平衡。
Sara:现实中存在许多问题需要解决,如果持续推动前沿智能的发展,就能实现新的突破,而人类也面临着许多极其重大的问题。这似乎注定会继续成为一场极其昂贵的博弈。希望能够支持那些正在进行此项工作的实验室,因为有些问题,如果不以这种极其昂贵的方式持续推进模型发展,是无法解决的。然而,如果今天拥有的前沿技术是开源的,那将具备非常强大的能力。这种民主化似乎非常有用,而且也很健康。
Andrej Karpathy:基本上是出于偶然才处于目前这样一个还不错、处于最优状态的境地。在某种意义上恰好处于一个有利的位置。
Sara:这种动态持续的时间越长,整个生态系统所处的境地可能就越健康,因为曲线下的面积在不断扩大。
Andrej Karpathy:即使在闭源领域,最近的集中化程度反而更高了,因为很多先行者未必能稳居顶级梯队。这并不是特别理想。希望实验室能有更多、更公开的交流,默认对那种封闭状态非常怀疑,希望房间里能有更多人参与。在机器学习领域,集成模型(ensembles)的表现总是优于任何单一模型。希望在思考所有最棘手问题时,也能有由不同人员组成的“集成团队”。希望在做决策时,房间里能有各方专家组成的集成团队,充分了解情况并做出决策。不想看到那种只有两三个人关起门来决定的情况。那不是一个好的未来。甚至希望有更多的实验室存在。开源有一席之地。希望它能持续存在下去。目前它稍微落后了一些,但这其实算是一件好事。
Sara:你曾致力于通用机器人技术和汽车自动驾驶的前身研究,最近几个月,机器人领域也发生了很多事情,比如在环境和任务的通用性方面取得了令人印象深刻的加速,大量资金涌入该领域。你认为这会实现吗?最近有什么改变吗?
Andrej Karpathy:基于在自动驾驶领域所见所闻得出的观点,确实认为自动驾驶是第一个机器人应用场景。十年前看到的情况是,大量初创公司涌现,大多数公司基本都没能长期存活下来。当时需要投入大量的资本支出,且耗时漫长。机器人技术因为极度困难、极其混乱,且需要巨大的资本投入和坚定的信念,确实是一个巨大的难题。实体对象处理起来非常困难。
个人感觉它会落后于数字领域的发展进度。在数字领域,将会有大量的束缚被解除。原本效率不高的事物,通过比特处理的便捷性,效率将提升百倍。数字空间将发生巨大的改变。届时物理空间的发展将会滞后。两者之间的接口也非常有趣,如果拥有更多代表人类行事的智能体,相互交流、执行任务,单纯在数字空间内能做的事情终将耗尽。在某个节点,必须回归宇宙并提出问题。必须进行实验,观察宇宙给予的回馈,以此获取知识。
目前拥有海量的数字内容,是因为对于已经数字化的一切,整体上的思考还存在积压。人类在思考所有已上传信息方面,投入的思考周期还不够多。即将开始面临实际已上传内容不足的问题。到那时,终将阅读完所有的论文并完成处理,从而产生一些尝试方向的想法。如果不确定仅仅依靠被喂养的信息,这种完全封闭的智能究竟能达到多高的水平。接下来会发生的是,首先会出现大量的“去束缚”过程,这方面有大量的工作要做。然后它实际上会转向物理世界与数字世界之间的交互界面。涉及感知层面的传感器,用以观察世界;以及执行层面的制动器,用以对世界施加影响。
很多有趣的公司实际上会从这个交互界面中诞生,比如:是否能在某种意义上为超级智能提供数据?是否能够获取数据,并根据它的指令去操纵物理世界?关于物理世界,就工作量等指标而言,潜在的市场规模是巨大的,甚至可能比数字空间中所能发生的还要大得多。这是一个大得多的机遇。需要极其巨大的工作量。涉及原子层面的工作要困难一百万倍。所以它会滞后,但也是一个稍大一些的市场。机会就在于沿着那种轨迹发展。目前数字化是主要关注的领域,接下来是接口,然后可能是一些物理层面的事物;当它们的时代到来时,必将产生巨大的影响。
Sara:这是一个有趣的框架,有些事情在原子世界里反而更容易实现。如果考虑对物理世界进行读取和写入,读取方面如传感器和摄像头,目前已经有很多现成的硬件;只要方法巧妙,完全可以想象如何丰富Agent的能力或获取大量新数据。不一定需要投入巨大成本就能获得有价值的成果。
Andrej Karpathy:见过的例子,比如Periodic Labs的CEO Liam。上周刚去拜访过他们。他们正致力于将AI应用于材料科学研究。这种情况下,连接智能的传感器实际上是非常昂贵的实验设备。生物学领域也是如此。传感器将不仅仅局限于视频摄像机之类。另外看到的另一件事是,有些公司试图让人们为你提供的训练数据付费。以程序化的方式。
Sara:为了喂养Borg。
Andrej Karpathy:在某种意义上都是传感器的例子。采取了多种多样的方式和形式。很期待有那么一个时刻,可以要求完成一项物理世界的任务,可以为它设定一个价格,然后直接告诉agent,自己想办法怎么去获取数据。
有点惊讶竟然还没有足够的信息市场。比如Polymarket或其他博彩市场,甚至是股票市场等,拥有如此多的自主活动且活动量不断增加。为什么不能实现比如现在的伊朗事件,通过拍摄德黑兰某处的照片或视频并支付10美元来获取信息呢?应该有人能够为此买单。这是一个为人工智能提供数据供给的例子。背后不会有人类在查看这些内容。将由试图预测博彩游戏和股票市场走势的Agent来完成。目前的“基因网络”依然相当新,还没有出现相应的机制。但这正是未来可能会发生的一个例子。有一本很有启发性的书叫Daemon。在Daemon中,人工智能最终几乎操纵了人类,所以人类像是它的执行器,但同时也是它的传感器。
Sara:从集体层面来看,社会将以某种方式重塑,服务于最终会在整个行业集体发生的趋势。会有更多的自动化,并产生特定的需求,人类将服务于这些机器的需求,而不一定是相互服务。在缺失训练数据这一具体问题上,确实需要类似自动研究的东西,需要让训练周期或SFT环节变得更加机械化,以便实现数据的采集,为了把人类从循环中剔除,去执行类似‘用新数据提升模型质量’这样的任务。如果不能让模型自己进行训练,那么把它作为一个闭环任务来执行的能力就会受限。通过定价数据会更具挑战性。但现在确实做到了。
Andrej Karpathy:关键在于,对于LLM训练而言,它实际上非常容易,非常契合这种范式。
Sara:清晰的指标。
Andrej Karpathy:LLM训练确实非常完美且轻而易举地契合了这种范式。就像对所有代码进行优化一样,这样运行速度会更快。此外,还可以设置用于优化的指标。如果在这些指标之上构建一个自动化循环,系统很可能会出现严重的过拟合现象。不过,可以利用该系统来设计更多指标,从而实现非常好的覆盖。在某种程度上,这是一种相当合适的匹配。
Sara:在结束之前,聊聊你的一个小项目。讲讲microGPT吧。
Andrej Karpathy:对此有一种持续了大约一二十年的执念,就是不断简化并将LLM基本归结为核心本质。做过很多这类项目,比如nanoGPT、makemore、micrograd等等。microGPT现在代表了试图将其提炼至最简本质的最高水平。训练神经网络,特别是训练LLM,虽然涉及大量的代码,但所有这些代码其实都是为了提升效率而引入的复杂度。仅仅是因为需要它运行得足够快。如果不需要它运行得很快,而只是关注算法本身,那么该算法实际上只有200行Python代码,非常易读。这还包含了注释以及其他所有内容。
只需要准备好数据集(即文本),再加上约50行代码的神经网络架构,然后执行前向传播,接着通过反向传播来计算梯度即可。一个用于计算梯度的自动求导引擎大约100行代码,然后需要一个优化器,例如Adam,这是一种非常先进的优化器,真的只需要10行代码左右。将所有这些整合进训练循环中,确实也就200行代码左右。
以前如果开发出了microGPT,会很想向人们解释它。比如有一个视频,演示了它是如何一步步执行的。确实尝试制作了那个视频。还尝试制作了一个关于它的小指南。但意识到这其实并没有增加太多的价值。因为它已经足够简单,总共只有200行代码,任何人都可以让他们的agent以各种方式对其进行解释。对于这些agent,不再需要向人类解释了。是在向agent解释。如果能向agent解释清楚,agent就可以作为路由器,根据人类的语言水平,以无限的耐心和与其能力相匹配的方式传达给人类。
Sara:如果我不理解某个特定的函数,可以让agent用三种不同的方式为我解释。而这是你无法提供的。
Andrej Karpathy:究竟什么是教育?以前教育是向导、讲座,感觉现在更多是在向agent解释事情,构思一些技能,技能就是一种指示agent如何教授某项事物的方式。可以为microGPT设置一项技能,涵盖预想中agent应该引导完成的进阶流程,前提是对理解代码库感兴趣。直接把课程编写成一项技能。以后直接向人们解释事情的情况会越来越少,更多会变成:agent是否理解了?
如果agent理解了,它们就会负责进行解释。目前还没有完全达到那个阶段,因为仍然可能比agent解释得稍微好一点,但模型进步得如此迅速,这已是一场注定会失败的较量。教育将被这种技术彻底重塑,意味着人类互相传授知识的时代即将终结。比如有一个代码库,过去需要为那些即将使用库的人撰写文档,但现在不应该再那样做了。
Sara:本不应该使用面向人类的HTML文档,而应该使用面向Agent的Markdown文档,如果Agent获取了这些文档,它们就能直接解释其中的各个部分。这就是通过Agent进行重定向的过程,我们将会看到这种情况大量出现。至于伟大的老师们是否知道如何培养出一种直觉,去根据Agent的不同需求来解释事物,这一点最终还有待观察。比如microGPT,我曾尝试让一个Agent去编写microGPT,告诉它将其浓缩为最简单的要素,把神经网络流精简到最极致的程度,但它做不到。
Andrej Karpathy:microGPT就像是我的终极执念。这就是200行代码。思考这个问题已经很久了。这就是解决方案。相信它无法再简化了。这就是核心价值所在。Agent是能理解的。它虽然自己构思不出来,但完全能够领会并理解为什么这样做。贡献的也就是这几点内容,但除此之外的一切,就后续的教育而言,已经不属于我的领域了。教育确实会以这种方式发生改变,需要将自己深信不疑的几个核心要点,或者更好的解释方式,融入到课程体系中。智能体做不到的事情,现在就是工作职责。至于智能体能做到的事情,可能已经做得更好,或者很快就会超过。应当在真正投入时间的事情上采取战略性的规划。
Sara:我们很感激你分享的这些要点。谢谢你,Andrej。