扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-01-11 10:21

“Gemini3不错,但我们也快发了”:Mark Chen评价谷歌大模型,讲清OpenAI如何给300个项目排GPU优先级

本文来自微信公众号: InfoQ ,编译:傅宇琪,作者:傅宇琪,原文标题:《“Gemini 3不错,但我们也快发了”:Mark Chen评价谷歌大模型,讲清OpenAI如何给300个项目排GPU优先级》


12月,OpenAI首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进ChatGPT。在当前白热化的AI模型竞赛中,作为行业内屈指可数的“明星企业”,OpenAI不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡,还需承接外界对其技术突破的高期待。面对“开创下一个AI技术范式”的巨大压力,OpenAI将采取怎样的策略破局?


最近,OpenAI首席研究官Mark Chen在播客节目中,与主持人Ashlee细致分享了OpenAI在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro已在取得的科学发现。基于该播客视频,InfoQ进行了部分删改。


核心观点如下:


目标是找到“下一个范式”


Ashlee:“人才争夺战”最近引发了大量关注,外界普遍认为Meta的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗?


Mark:整个行业的人才池其实很有限,大家都知道最关键的资源之一就是顶尖人才。Meta的积极挖人并不令人意外,但我们也没有袖手旁观。媒体往往强调“人才单向流向Meta”,但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前,先后接触过我近一半的直接下属,但这些人全部拒绝了他们。当然,如果Meta每年能投入约百亿美元用于人才,他们总能挖到一些人。但总体来看,我们很好地保护了核心人才。


竞争过程中也发生过不少颇具戏剧性的事:扎克伯格曾亲自给我们团队成员送去他亲手熬的汤,以此示好。当时我非常震惊,但后来也理解这类方式确实可能有效。之后我也给从Meta挖来的对象送过汤,甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句,我自己并不亲自熬汤,米其林餐厅的汤当然比我做得好。


但真正让我有信心的是:即使面对Meta的高薪挖角,在OpenAI,无论是来自Meta的员工,还是我们原本的研究人员,都没有人认为“AGI会首先在Meta诞生”。他们对OpenAI的研究路线都有高度信心。我也一直非常明确告诉团队,我们不会与Meta进行“薪资逐美元匹配”的竞争。在远低于Meta的薪酬下,关键成员仍然选择留下,这让我更加确信:他们真正相信OpenAI的未来。


Ashlee:在这种竞争中,有没有类似“博弈策略”的考虑?


Mark:关键在于:目标不是留住组织内的每一个人,而是认清必须保留的核心力量,并确保他们留下来,我们在这点上做得很好。


Ashlee:在我看来,Sam是真正沉浸于研究的那个人,是最顶层的决策者。而你和Jakub负责共同制定OpenAI的研究方向,同时你还要决定算力如何分配到具体项目上,既要决定公司往哪里走,又要管理执行路径。听起来像是一份非常艰难的工作,因为我想象得到大家会竭尽所能从你那里争取GPU。


Mark:确实如此。人们为了获得GPU,会想尽各种“幕后交易”。但这确实是我职责的重要部分:确定研究优先级,并对最终执行负责。


Jakub和我每隔一两个月会做一次“项目盘点”,梳理一份包含约300个项目的大型表格,尽可能深入了解每个项目,并对它们进行排序。对一家约500人规模的组织来说,明确“核心优先级”,并通过口头沟通及算力分配来传达,是非常重要的。


Ashlee:这300个项目里既有大型前沿模型,也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入GPU?


Mark:关键在于始终聚焦核心路线图。与其他大实验室不同,OpenAI始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果,也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”,并愿意投入大量资源。很多人可能会惊讶:我们的算力大头,其实花在“探索”上,而不是训练最终的成品模型。


Ashlee:所有团队都会说自己的项目最重要、最值得,怎么判断优先级?


Mark:最困难的决策通常是:我们无法在当下为某个项目提供支持。但成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。


Ashlee:你们也强调不要“对竞争者做出反应”。如今AI领域的竞争比以往都激烈,你们如何保持独立判断?


Mark:现在的AI研究竞争确实空前激烈,但不能陷入这种竞争节奏。你随时可以发布一个小更新,在几周或几个月内领先别人,但这种方式无法长期维持。真正重要的是“破解下一个范式”。


例如RO(reasoning optimization)项目,我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎,因为大家都觉得预训练和后训练机制运转良好,没必要做别的。但现在,“思考能力”已经变成不可或缺的基础能力。


我们的使命就是大胆押注,并构建足够强的算法,使它们能扩展到未来数个量级的算力。


研究员vs工程师


Ashlee:随着OpenAI成为一家有明确产品线的公司,你们如何不被“商业优先”压过“研究优先”?


Mark:OpenAI最特别的地方在于:我们仍然是一家“纯粹的AI研究公司”,这点在业界非常罕见。我们以非营利形式创立,我加入时公司仍是非营利组织,那时的精神是“全力推进AGI研究,并保证安全”。我认为这依然是创造价值的最佳方式:只要研究领先,价值创造自然而然会发生。我2018年加入时的那种“核心文化”,至今依然存在。


Ashlee:马斯克曾说:“这帮人不是研究员,只是在做工程。”你怎么看?


Mark:在构建大模型时,优化每一个百分点、加速每一个kernel、确保数值稳定,都是极深的工程实践。如果把研究凌驾于工程之上,其实已经输了。一旦缺少工程能力,就无法在当今这种规模的GPU上运行模型。


Ashlee:但外界确实把“研究员”和“工程师”赋予了不同的神秘感。


Mark:研究人员形态各异,有的人每天都有无数想法,其中很多并不好,但总能在某个时刻提出改变方向的优秀点子,而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作,因此也无法简单划分为某种刻板印象。


Ashlee:当竞争对手发布新模型,你和你们团队会做什么?大家会第一时间去试吗?有没有你们常用来测试新模型的“那一道题”?


Mark:会。以Gemini 3为例,它是个不错的模型。


但我们内部其实有能力相当的模型,而且快要发布了。


Benchmark只能说明一部分,大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测,目前还没看到模型完全解出来,就算是“thinking model”也不行。


Ashlee:是秘密题目吗?


Mark:不算,不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题,叫“42 problem”。你要构建一个mod 42的随机数生成器,你有的原子操作是一些模42以下素数的RNG,你要让期望调用次数最小。挺可爱的题目,但还没人类语言模型做到最优。


Ashlee:我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。


Mark:没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力,把整个团队的肌肉练起来,做出现在能跟Gemini 3一较高下的模型。


Ashlee:所以你现在更关注长线构建,而不是每次新品发布就冲去试题。


Mark:对的。


Ashlee:我知道你和Jakub都有竞赛背景。我当初第一次见Jakub是在Facebook Hacker Cup。你以前也是数学比赛选手吧?


Mark:对,我从小学、高中都在做数学竞赛。不过我真正写代码很晚,是大学室友怂恿的。当时我还有点数学系学生的傲气,觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了,而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛,算是朋友间的活动。后来我发现自己还挺有天赋,又开始给美国国家队出题、最后去带队。既是激烈比赛,也是一个紧密社区,大家之后都会在科研界再相遇。


Ashlee:那你这么忙,还能当教练?


Mark:其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研:有好时段、有坏时段,你不能因为连续失败就被心理打倒,很大部分是士气管理。我最近在带模型做竞赛题时也发现,模型的“难度直觉”跟人完全不同,人认为ad-hoc的题模型反而容易。这让我更相信未来的科研是“AI+人类直觉”的组合,会产生新的突破。


Ashlee:有点像AlphaGo的“Move 37”时刻?


Mark:是的。我觉得GPT-5 Pro发布之后,前沿科研有了拐点。发布三天后,一个物理学家朋友把他的最新论文丢进去,模型想了30分钟就完全搞懂,他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。


Ashlee:但当AI开始做那些原本属于顶尖人类智力的事,会不会让你觉得有点伤感?


Mark:竞赛是我很喜欢、也曾经擅长的东西,但我也看着模型从普通选手水平爬到超过我,再超过Jakub,就像亲眼看到自动化的速度快得不可思议。去年模型在coder比赛还只是排100多名,今年已经能冲进前五。变化太快了。


Ashlee:那十年后还会有人类比赛吗?


Mark:会的,因为它本质上就很有趣。那些只是为了简历而参加的人会消失,但真正热爱的人不会。


Ashlee:我采访别人时,他们说有些国家只要IOI奖牌就能直接保送大学。


Mark:是,但我觉得未来这些考试本身会被AI打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟ChatGPT对话,由一个不会被越狱的特别版ChatGPT判断他们是否具备在OpenAI工作的能力。


Ashlee:你家里有很强的科技背景,你父母都在Bell Labs,对你影响很大吧?


Mark:我从小吃饭桌上就是各种科学谜题。后来搬到西岸,我爸做创业,让我看到初创公司的另一面。再搬到台湾读书,又是完全不同的文化,纪律性更强。各种经历混在一起,形成了今天的我。


Ashlee:你MIT那届是名人辈出的超级年份吧?


Mark:是,2012年那一年特别厉害。Jacob Steinhardt、Paul Christiano,还有后来AI领域很多重要的人物都在那一届。


Ashlee:你也通过竞赛认识了Cognition的Scott Wu,那些在X上被当成数学meme的人。


Mark:对,我们就在竞赛社区认识。


Ashlee:你从MIT毕业后,直接去了华尔街。


Mark:老实说,我对在华尔街做高频交易并没有太多自豪感。当时在MIT,许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”,只要足够聪明,你就能获得对应的收益。然而文化上我并不适应。在那种环境里,当你发现了什么突破,第一反应是把知识藏好,因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统:即便某家HFT公司的算法快了一点,外界其实几乎没有任何感受。我做了四五年后发现,我们始终在跟同一批对手竞争,大家都稍微变快了,但世界并没有因此改变多少,我觉得是时候做点别的事了。


当时AlphaGo的比赛对我触动很大。虽然我并不下围棋,但看到模型展现出的创造性,我特别想弄明白背后的原理。


Ashlee:所以你是看到了那场比赛后,才开始关注AI?当时你有在读论文吗?


Mark:坦白讲,没有。直到AlphaGo之后我才开始深入研究AI。我的第一个目标就是复现DQN的结果,复现一个能在Atari游戏中达到超人水平的网络,那基本就是我踏入AI的起点。


Ashlee:你是在上班后业余时间做这些吗?我记得我大概2018年采访George Hotz,他在自家车库做自动驾驶。他当时说,AI仍然很年轻,只要读10到30篇论文,就能掌握整个领域。当然他的话未必完全准确,但AI的确很特别:历史很长,但此刻却异常“浅”。


Mark:确实非常“浅”。我常建议对AI望而却步的人:只要花三到六个月做一个项目,比如复现DQN,就能很快触达前沿。过去几年虽然增加了一些深度,但远没有理论数学或物理那么深奥。


Ashlee:你觉得AI会像数学一样,天才都在二十几岁出现突破吗?还是这是一个可以做一辈子的领域?


Mark:我认为完全可以持续做下去。OpenAI的文化确实偏年轻,但做好研究并不需要年轻。年轻人确实因为“先验少”,更容易突破传统路径,但随着经验增长,你也会形成自己的视角和框架,这既是优势,有时也会让你更固化。


OpenAI的内部故事


Ashlee:你在2018年加入OpenAI,那时公司应该只有50人左右?


Mark:差不多20人而已。我是以“研究员resident”的身份加入的,也就是OpenAI会从其他行业招人进来集中训练半年,像压缩版PhD,然后再参与更深入的研究项目。我很幸运能向Ilya学习,他基本决定了我的项目、学习路径和方向。


Ashlee:但如果去LinkedIn看,你的第一份OpenAI的头衔看起来像是“前沿研究主管”。


Mark:并不是,我做了三年左右的个人研究(IC)。当时我主要研究生成式模型,因为那是Ilya最关注的方向。之后我才开始带团队。


Ashlee:公众最早看到的大项目可能是DALL·E,对吗?


Mark:是的。其实在那之前,我最自豪的项目之一是Image GPT。它证明了Transformer不止能处理文本,也能在图像上学到强大的表示能力,是DALL·E的前身。而另外一个我非常自豪的项目是Codex,我们搭建了代码模型的评估体系,也探索了如何让语言模型在代码任务上达到高水平。


Ashlee:那你当初为什么选OpenAI?是因为当时这个小公司里有很多有意思的人吗?没钱、没人、前景很不确定,居然要挑战Google这种巨头。


Mark:我觉得一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。当时OpenAI两者兼具,这非常罕见。而且我认识Greg,我们以前参加过数学竞赛,我给他发消息说:“我不确定自己是否适合,但这里似乎在做重要的事情。”


Ashlee:但你从外部加入,然后现在成为研究负责人,这听起来还是很不可思议。


Mark:对我来说也很不真实。从IC转管理者,我其实非常犹豫。不过一路上我遇到的管理者都非常支持我,他们看到了我的潜力,会主动为我争取机会。我从没主动要求升职,每次都是自然而然的结果。管理这件事,本质上主要靠经验累积,而OpenAI是一个能让你不断获得“经验值”的地方。


Ashlee:我认识的你是一个温和、稳重的人。但OpenAI过去几年经历了很多戏剧性的风波,甚至像“权力的游戏”。你要在这种环境里做管理,这和你的性格几乎相反。


Mark:老实说我在OpenAI算是很幸运。一路上都有人支持我、给我建议,也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。


Ashlee:不过你在“政变事件”那段时间做了两件很重要的事:你先帮助研究员们统一意见、促成那封让Sam回归的请愿信。然后一两天之后,你在Chelsea家做了一次很重要的短讲。这两个瞬间对我而言都很震撼,在危机时刻挺身而出、凝聚团队……这对你意味着什么?


Mark:对我而言,那确实是一个关键时刻。“风波”后的几天里,整个团队都处在高度不确定中。那段时间,我、Nick和Barrett都感到一种责任感:竞争实验室正不断向我们的研究人员打电话,试图把他们挖走。我当时给自己设下目标:不能失去任何一个人。最终我们也做到了。


那几天,我们每天都把自己的家打开,让同事随时过来,释放焦虑,同时保持他们与领导层的沟通渠道畅通,让大家知道自己仍然能发挥作用。渐渐地,团队形成了一种“我们一起面对外界”的精神,大家都在思考:如何向世界传达“我们仍然站在一起”。


当时我在几处房子之间来回协调,我们提出了组建请愿书的想法,表达我们支持Sam的立场。大概凌晨两点,这个想法最终确定下来。到第二天早上,研究团队已有90%以上的人签署,到最后接近一百人都签了。那一整晚,大家都在互相打电话确认:“你参加吗?”


Ashlee:但你当时的处境应该挺尴尬的吧?毕竟一开始似乎是Ilia和Sam立场对立,而Ilia又是你的导师。后来Ilia又回来了……那会不会让你很尴尬?


Mark:不会说尴尬,但确实很困难,因为那是个信息极少的环境。那时候确实很容易怀疑:Sam到底做了什么?但换个角度想,如果真有严重问题,Greg和Jakub这种极其正直的人会因此辞职吗?我觉得肯定有部分事实被误解了。


Ashlee:Jakub在那里工作很久了。关于他,有什么是外界不了解的?


Mark:他其实非常幽默,带着强烈的讽刺感,我常常被他逗得发笑。和他共事让我最珍惜的一点,是我们之间高度的默契。进会议室后,我们能迅速碰撞出一致的结论,然后分别负责路线图的不同部分。


说到“把团队留在一起”,我现在仍有这种使命感。我认为我们仍然“被攻击着”,任何公司想要招人时,第一选择往往是从OpenAI下手,因为他们想要我们的专业能力、愿景和世界观。OpenAI造就了今天AI领域最多的明星研究员,因此我们对团队有强烈的保护欲。只要有人来挖,我就会尽一切努力确保团队感到被重视、被理解,并清楚自己在整个路线图中的位置。


Ashlee:在写书、回顾历史的过程中,我一直在想:这是否是一个高度依赖“天才个体”的领域?从2012年Ilia的突破,到2017年Transformer,再到Alec Radford……似乎每隔几年就有那么8–10个关键人物在推动整个领域。如果他们离开了,比如John Schulman、Alec离开了,那对团队不是巨大损失吗?但你们之后仍然在推理和其他方向取得了突破。


Mark:我并不同意“完全依赖明星个体”这种说法。OpenAI的确会从上层做方向性押注,但我们内部有非常深厚的自下而上文化,很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展,是非常美妙的事,推理方向就是典型例子。


Ashlee:但行业确实会花大价钱去挖“明星”,比如Google花巨资请回Noam Shazeer。


Mark:当然,人才既有培养也有争夺。反过来,我从Meta学到的一点就是:OpenAI自己也可以非常积极地争取顶尖人才,我自己也从他们那套激进的招聘策略中学了几招。归根结底,我们的目标始终是:组建一支最强的团队,完成我们要实现的使命。


Ashlee:这个圈子其实很小,你们虽然竞争激烈,但私下也都是朋友。那边做研究,这边又试图挖对方的人,这不是很微妙吗?


Mark:这是残酷竞争的行业,但我个人也非常享受竞争。我讨厌失败,因此无论是研究还是招聘,我都会全力以赴。


Ashlee:这让我想到半导体行业早期也是这样:工程师们不断突破物理极限,在酒吧里分享最新发现,同时又被各家疯狂挖角。


Mark:是的,任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应:一种是建立深度信息隔离层,严密保护一切;另一种是继续保持开放文化,用速度压制对手。OpenAI明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法,这才是最快的前进方式。


Ashlee:那现在你、Sam和Jakub之间的合作方式是怎样的?大家都能看出来Sam更偏研究,而你们两位更深度参与技术细节。


Mark:我们三个人联系非常紧密,我每天都会和他们交流。Sam热爱研究,也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”,比如潜在问题、工作环境中的隐形障碍,他能帮我把这些提前揪出来。Jakub和我则更专注于如何设计组织、让团队以最高效率协作,比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。


Ashlee:Sam平时看论文、和你们聊天吗?


Mark:对,他会看论文,也会经常与研究人员交流,理解他们的研究方式。当然,他还负责范围远超研究的事务。


OpenAI到底发现了什么?


Ashlee:我知道你们最近在预训练方面似乎有了重大突破,也明显比之前更有信心,能透露一下你们到底发现了什么吗?


Mark:我对过去两年的总体观察是:我们把大量资源投入到“推理”这一能力的研究上,努力理解并打磨这个核心原语,这条路确实走通了。但副作用是,模型的其他重要环节,特别是预训练和后训练,相对失去了些“肌肉”。过去六个月里,Jakub和我花了很多时间把这部分能力重新练起来。


我一直把预训练看作一种“肌肉”,必须持续锻炼:信息要保持最新,团队要在优化、数值计算等前沿方向持续投入,同时也要确保有足够的心智关注度。所以我最近一个重要工作,就是引导公司内部的讨论重回预训练,我们认为预训练还有极大空间。


外界有人说“Scaling已死”,但我们完全不认同。某种意义上,行业现在把注意力集中在RL,这反而给了我们“信息优势”,因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力,我们最近训练出的模型明显更强,这也让我们对包括Gemini 3在内的接下来一系列发布更有信心。


Ashlee:我脑中对这段历史的画面是这样的:你们跑得太快了,整个领域也跑得太快。突然之间,我们从互联网收集到巨量资料,把它扔进一台超级计算机,于是ChatGPT诞生了,然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说,问题可能是:最初那波数据其实非常粗糙,只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”,但外界很难理解到底之前的“错误”是什么。


Mark:你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式,模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限:当你模仿人类时,你很难真正超越人类。


这也是为什么RL重要,它让我们有机会把模型推向更难的任务,让它从人类范式之外思考,拓展能力边界。但随之而来的,是一个更困难的问题:如果我们要让模型真正超越人类,该怎么衡量?


例如,在科学领域,当能力达到了“超人类”水平,人类真的能够判断A比B强吗?如何判断一个“超人类数学家”比另一个更厉害?我们需要更好的评估体系。迄今为止,我们很幸运,IMO、IOI等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类,这些测验本身就失效了。


Ashlee:我常看到那些竞赛牛娃后来进Google、Facebook,但他们不一定是最顶尖的工程师,也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来AI在这些竞赛上表现极佳,我们到底能从中学到什么?


Mark:这正是我喜欢AI研究的地方,它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是:你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断,例如路线选择、资源配置、项目方向。如果判断错误,很快就会失去团队的信任。


我很享受与这样一群极度技术驱动的人共事,他们都深度投入、极高水准,与他们讨论技术本身,是一件真正的乐趣。


Ashlee:在我心里,Transformer是一次巨大飞跃,而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam交流时,我感觉你们说过去三到五年投入的大量工程工作,其实还没有完全显现出来。你们现在看到的,是另一场类似Transformer的跃迁吗?


Mark:我认为是的。比如在GPT-5时,我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力,我们正在快速扩大投入。关键仍是维持一组多样化的探索,把最有实证价值的方向加大力度推进。


Ashlee:但两周前,Karpathy在播客上说AGI可能要十年;上周Dario又说更接近两年。行业内部声音完全不一致。你怎么看?


Mark:Twitter很喜欢那种“结束了!”“又回来了!”的戏剧化循环。但AGI本身连定义都不统一,在OpenAI内部,你把所有人叫到一个房间,也不可能给出一个完全一致的AGI定义。


我更把它类比成工业革命:你说纺织机是工业革命,还是蒸汽机是?视角不同,切点也不同。对我而言,我更看重的是:模型是否开始产出真正新的科学知识?是否推动科学前沿?从今年夏天以来,我感觉在这方面出现了巨大的相变。


Ashlee:你说的新科学成果,是不是指最近那些生物科技初创公司,比如一次性设计抗体、分子结构那类突破?还是你指的另有其事?


Mark:那次与物理学家的交流给了我很大启发,我回去后就想,我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家,能够获得最大程度的支持。我知道其他公司也在推动科学前沿,但我们和谷歌等机构的不同之处在于:我们希望让所有科学家都有机会借助工具做出诺奖级突破,而不是让OpenAI自己拿诺奖。我们要构建的是通用的工具与框架,让科学界整体都能加速。


Ashlee:你能具体说说有哪些让你兴奋的发现吗?


Mark:当然。你可以去看Sebastian的推特,他最近发了关于GPT-5在一个开放凸优化问题上取得进展的论文,这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”,但远比这复杂。


Ashlee:这两天听到有人声称“我们做出了AI科学家”“我们一次性设计出增强型蛋白质”,这些公司里不少是真正的科学家,我也多少会兴奋。但数量实在太多,我很难判断哪些是真正的突破、哪些只是噪音。


Mark:如果这些突破发生在生物领域,我一点也不意外。尽管我主要的专业在计算机科学和数学,但我们团队里有顶级专家,他们确认了不少是真正的科学发现,生物学里出现类似情况并不令人惊讶。


Ashlee:但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说AI没什么进展,都是虚幻的。如果这些发现是真的,公众应该会感受到变化才对。


Mark:我们在筹建OpenAI for Science时与许多物理学家和数学家交流过,其中大多数人对AI其实并不乐观,他们觉得模型不可能证明新定理。但正因为如此,我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快,我们希望为他们提供工具,也希望说服更多研究者:这是未来科学研究的正确方法。


Ashlee:每个人对AGI的定义不同,但你似乎认为未来一两年会发生非常剧烈的变化?


Mark:“AGI两年后到来”一直是个梗,但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果,让我真正产生了信念。在OpenAI内部,我们设定了两个非常具体的目标:


第一,1年内改变研究方式:让研究过程可以依赖AI实习生。也就是:研究者负责提出想法,模型负责实现、编写代码、调试。


第二,2.5年内让AI能进行端到端研究。这意味着:研究者只确定方向,模型完成从构思到执行到验证的全过程。


与今天相比,这是完全不同的研究范式。


算力、GPU与AI硬件


Ashlee:在与OpenAI的人聊时,我常听到一句话——基础设施扩张得很快,模型只要算力再提升10倍就会变得更好。但也有人说从GPT-4到GPT-5,你们算力增加了,却没有看到预期的效果。可你们的叙述又让我觉得:其实我们还没真正看到“10倍算力飞跃”带来的结果。


Mark:有人问我:“你们真的需要这么多算力吗?”我总是被这个问题震惊,因为我每天面对的都是海量算力需求。如果我们今天多3倍算力,我能立刻高效用完;如果多10倍,大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多GPU吗?”对我来说毫无意义。


Ashlee:那除了算力需求,你们对模型规模继续扩大是否同样乐观?你们是否看到,类似“规模效应”会再次推动巨大跃升?


Mark:是的,我们非常明确要继续扩大模型规模;而且我们有突破性的算法能支持更有效地扩展。我认为Gemini 3也很令人印象深刻,但从细节看,比如SWE-bench等指标,他们在数据效率方面仍没有重大突破,而这是我们非常强的部分。


Ashlee:我看到了一份泄露的备忘录,Sam对Gemini 3的语气听起来相当严肃,仿佛是一个转折点。你们内部应该都看过吧?


Mark:是的,但你要知道,Sam的工作之一就是不断在组织里注入紧迫感,我也一样。我们必须保持专注,加快节奏。Gemini 3是谷歌该做的正确押注,但与此同时,我们也有明确的策略与回应,并且我们有信心执行得更快。


Ashlee:你们会参与像Jony Ive的AI设备这样的项目吗?比如研究团队在其中扮演怎样的角色?


Mark:是的,事实上,就在昨天我和Jony Ive以及几位研究负责人一起吃了晚饭。我一直在思考未来的ChatGPT会是什么样子。现在的交互方式对我来说还很“笨”,非常非思维原生:你给一个提示,它回答;你不提示,它就停止思考。而且如果你再给出类似的问题,它会重新花一样多的时间推理,仿佛没有从第一次的上下文中变得更聪明。


未来显然应该不同。记忆会是核心能力:每次你使用ChatGPT,它都会学到关于你的更深层次信息,思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来,它会变得更好。我认为这会彻底改变“设备”的范式,因此我们必须思考:如果AI的主导逻辑是持续学习与反思,那硬件设备应该怎么重新设计?这就是和Jony合作非常有价值的地方。


Ashlee:你们已经有设备原型了吗?


Mark:我不能说有没有,也许有,也许没有。


Ashlee:我想到的是:苹果时代的核心是“硬件品味”,这是Steve Jobs极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam的审美看得出来不错,但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的,你们怎么确定自己能做出好产品?


Mark:坦白说,我们不需要自己拥有那种品味,那是Jony的价值,他就是我们关于“品味”的判别器。而且很有趣的是,我们发现设计流程与AI研究流程之间有深刻的相似性:大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅:他们根据我们即将发布的能力去思考外形,我们根据他们的外形需求去思考能力。


Ashlee:我有时会担心:一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说,似乎你们形成了一个合理的搭配。


Mark:确实,打造AI能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题:“ChatGPT最喜欢的数字应该是什么?”这种问题能检验模型的“人格品味”一致性。


最后的问题


Ashlee:ChatGPT建议我问你:如果五年后回看,现在有哪些“还很脆弱”的想法,你直觉认为可能是大突破的核心?


Mark:确实有几个,我非常期待把它们规模化。主要集中在预训练,一些在RL,还有一些是如何把所有组件整合在一起的整体性想法。


Ashlee:你觉得现在外界对OpenAI最大的误解是什么?


Mark:最重要的一点:OpenAI从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是AGI,其他所有产品都会自然从研究突破中流出。


我们关心三件事:自动化AI研究本身、自动化科学发现、自动化经济性工作。今年最大的更新,其实是第二条:科学研究的自动化开始真实发生了。


Ashlee:你几岁了?还有社交生活吗?


Mark:34,快35。老实说,没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点,那就必须抓住它。Barret离开去创业之后,我在办公室睡了一个月。那段时间我非常强烈地感到:我必须保护研究,这是我最在乎的东西。


Ashlee:DeepSeek事件之后,你们怎么看开源模型?


Mark:那是第一次让我深刻意识到:必须坚定走自己的研究路线。DeepSeek当时引发巨大舆论,大家都在问:“OpenAI落后了吗?要怎么回应?”但我们做得最正确的一件事,就是继续执行自己的研究规划。DeepSeek的工作非常强,但主要是对我们O系列理念的复刻。关键是,我们必须继续创新。


Ashlee:你认为500人是一个最优规模吗?随着公司扩大,这个数字会增长,还是说为了同时推进若干重大想法,500人已经是最合适的规模?


Mark:坦率说,我认为甚至可以更少。尤其在我们开始引入AI研究员或AI实习生之后,我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度,我做过一个实验:完全冻结研究部门的新增人头。如果团队想招人,就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀,并保持极高的能力标准。


Ashlee:我记得之前在一次会议上,你和Jakub的观点比较一致:你们认为大家过度关注“谁在项目里获得署名”这个问题。AI起源于学术界,在学术环境中署名极其重要。但那次会议里,你似乎在强调:大家可能对这个问题有点太执着了。是这样吗?是不是因为现在OpenAI已进入新的阶段,在公司环境下,这件事不再那么重要?


Mark:我认为过度关注“功劳归属”是件坏事。但另一方面,我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度,但Jakub和我最终决定OpenAI必须保留署名。反对意见常常是:“你们把顶尖人才的名字摆在台面上,其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到,我们应该持续培养AI领域的明星研究者,也应该让真正做出贡献的人建立起自己的声望。


Ashlee:但你似乎又同时认为,研究员个人不应该过分执着于署名了?


Mark:现场确实有人表达过那种观点,但其实Jakub和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳,哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说:OpenAI可能是整个行业里,最愿意给研究者公开署名的公司,没有之一。


Ashlee:你2018年加入时,OpenAI还是一个研究导向、非营利的组织,创始人希望它成为Google的平衡力量,并以“确保AGI安全到来”为目标。而你来自华尔街高频交易,只是被AI的进展吸引过来。说实话,你并不“必须”对AGI的哲学问题深怀使命感。那你究竟为什么要做这件事?


Mark:我同时管理OpenAI的对齐团队。坦白说,未来一两年最重大的难题,就是对齐问题。在这个研究方向上,OpenAI在过去一年做出的成果可能是整个领域里最好的。


原因之一是:在RL与算力增加后,我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险,因为模型最终给你的答案可能是“正确的”,但它得到答案的过程却完全偏离我们能接受的路径。


随着模型替我们执行的任务越来越复杂,理解它的思维过程将变得极其关键。


Ashlee:这和机械可解释性有关,也就是试图理解模型内部机制的问题。核心问题是:我们的理解能力能否跟得上模型复杂性的提升?还是会最终被模型甩得太远?


Mark:我们在发布O1时做了一个关键决策:我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”,它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预,我们仍然能“看到”模型真实的思维轨迹,并将其作为研究对齐的重要工具。


几个月前,我们与DeepMind、Anthropic合作发表了一篇论文,探讨未来如何通过这种方式理解模型。我确实担心未来某一天,模型给出非常有说服力的答案,但我们无法确认它是否真正与人类的价值一致。


因此有很多值得探索的方向,例如:能否设计一种博弈或环境,让模型在互相监督、共同演化的过程中,唯一稳定的均衡,就是“诚实”?我认为这里还有大量非常重要的研究要做。


参考链接:


https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: