“Gemini3不错，但我们也快发了”：Mark Chen评价谷歌大模型，讲清OpenAI如何给300个项目排GPU优先级-虎嗅网

本文来自微信公众号： InfoQ ，编译：傅宇琪，作者：傅宇琪，原文标题：《“Gemini 3不错，但我们也快发了”：Mark Chen评价谷歌大模型，讲清OpenAI如何给300个项目排GPU优先级》

12月，OpenAI首席执行官萨姆·奥特曼宣布拉响「红色警报」，将调配更多内部资源以加速改进ChatGPT。在当前白热化的AI模型竞赛中，作为行业内屈指可数的“明星企业”，OpenAI不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡，还需承接外界对其技术突破的高期待。面对“开创下一个AI技术范式”的巨大压力，OpenAI将采取怎样的策略破局？

最近，OpenAI首席研究官Mark Chen在播客节目中，与主持人Ashlee细致分享了OpenAI在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro已在取得的科学发现。基于该播客视频，InfoQ进行了部分删改。

核心观点如下：

目标是找到“下一个范式”

Ashlee：“人才争夺战”最近引发了大量关注，外界普遍认为Meta的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗？

Mark：整个行业的人才池其实很有限，大家都知道最关键的资源之一就是顶尖人才。Meta的积极挖人并不令人意外，但我们也没有袖手旁观。媒体往往强调“人才单向流向Meta”，但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前，先后接触过我近一半的直接下属，但这些人全部拒绝了他们。当然，如果Meta每年能投入约百亿美元用于人才，他们总能挖到一些人。但总体来看，我们很好地保护了核心人才。

竞争过程中也发生过不少颇具戏剧性的事：扎克伯格曾亲自给我们团队成员送去他亲手熬的汤，以此示好。当时我非常震惊，但后来也理解这类方式确实可能有效。之后我也给从Meta挖来的对象送过汤，甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句，我自己并不亲自熬汤，米其林餐厅的汤当然比我做得好。

但真正让我有信心的是：即使面对Meta的高薪挖角，在OpenAI，无论是来自Meta的员工，还是我们原本的研究人员，都没有人认为“AGI会首先在Meta诞生”。他们对OpenAI的研究路线都有高度信心。我也一直非常明确告诉团队，我们不会与Meta进行“薪资逐美元匹配”的竞争。在远低于Meta的薪酬下，关键成员仍然选择留下，这让我更加确信：他们真正相信OpenAI的未来。

Ashlee：在这种竞争中，有没有类似“博弈策略”的考虑？

Mark：关键在于：目标不是留住组织内的每一个人，而是认清必须保留的核心力量，并确保他们留下来，我们在这点上做得很好。

Ashlee：在我看来，Sam是真正沉浸于研究的那个人，是最顶层的决策者。而你和Jakub负责共同制定OpenAI的研究方向，同时你还要决定算力如何分配到具体项目上，既要决定公司往哪里走，又要管理执行路径。听起来像是一份非常艰难的工作，因为我想象得到大家会竭尽所能从你那里争取GPU。

Mark：确实如此。人们为了获得GPU，会想尽各种“幕后交易”。但这确实是我职责的重要部分：确定研究优先级，并对最终执行负责。

Jakub和我每隔一两个月会做一次“项目盘点”，梳理一份包含约300个项目的大型表格，尽可能深入了解每个项目，并对它们进行排序。对一家约500人规模的组织来说，明确“核心优先级”，并通过口头沟通及算力分配来传达，是非常重要的。

Ashlee：这300个项目里既有大型前沿模型，也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入GPU？

Mark：关键在于始终聚焦核心路线图。与其他大实验室不同，OpenAI始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果，也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”，并愿意投入大量资源。很多人可能会惊讶：我们的算力大头，其实花在“探索”上，而不是训练最终的成品模型。

Ashlee：所有团队都会说自己的项目最重要、最值得，怎么判断优先级？

Mark：最困难的决策通常是：我们无法在当下为某个项目提供支持。但成为一个好的领导者，就意味着必须明确地告诉大家：这是优先级，这是我们认为真正推动研究方向的成果，其余的只能排在第二位。

Ashlee：你们也强调不要“对竞争者做出反应”。如今AI领域的竞争比以往都激烈，你们如何保持独立判断？

Mark：现在的AI研究竞争确实空前激烈，但不能陷入这种竞争节奏。你随时可以发布一个小更新，在几周或几个月内领先别人，但这种方式无法长期维持。真正重要的是“破解下一个范式”。

例如RO（reasoning optimization）项目，我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎，因为大家都觉得预训练和后训练机制运转良好，没必要做别的。但现在，“思考能力”已经变成不可或缺的基础能力。

我们的使命就是大胆押注，并构建足够强的算法，使它们能扩展到未来数个量级的算力。

研究员vs工程师

Ashlee：随着OpenAI成为一家有明确产品线的公司，你们如何不被“商业优先”压过“研究优先”？

Mark：OpenAI最特别的地方在于：我们仍然是一家“纯粹的AI研究公司”，这点在业界非常罕见。我们以非营利形式创立，我加入时公司仍是非营利组织，那时的精神是“全力推进AGI研究，并保证安全”。我认为这依然是创造价值的最佳方式：只要研究领先，价值创造自然而然会发生。我2018年加入时的那种“核心文化”，至今依然存在。

Ashlee：马斯克曾说：“这帮人不是研究员，只是在做工程。”你怎么看？

Mark：在构建大模型时，优化每一个百分点、加速每一个kernel、确保数值稳定，都是极深的工程实践。如果把研究凌驾于工程之上，其实已经输了。一旦缺少工程能力，就无法在当今这种规模的GPU上运行模型。

Ashlee：但外界确实把“研究员”和“工程师”赋予了不同的神秘感。

Mark：研究人员形态各异，有的人每天都有无数想法，其中很多并不好，但总能在某个时刻提出改变方向的优秀点子，而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作，因此也无法简单划分为某种刻板印象。

Ashlee：当竞争对手发布新模型，你和你们团队会做什么？大家会第一时间去试吗？有没有你们常用来测试新模型的“那一道题”？

Mark：会。以Gemini 3为例，它是个不错的模型。

但我们内部其实有能力相当的模型，而且快要发布了。

Benchmark只能说明一部分，大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测，目前还没看到模型完全解出来，就算是“thinking model”也不行。

Ashlee：是秘密题目吗？

Mark：不算，不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题，叫“42 problem”。你要构建一个mod 42的随机数生成器，你有的原子操作是一些模42以下素数的RNG，你要让期望调用次数最小。挺可爱的题目，但还没人类语言模型做到最优。

Ashlee：我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。

Mark：没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力，把整个团队的肌肉练起来，做出现在能跟Gemini 3一较高下的模型。

Ashlee：所以你现在更关注长线构建，而不是每次新品发布就冲去试题。

Mark：对的。

Ashlee：我知道你和Jakub都有竞赛背景。我当初第一次见Jakub是在Facebook Hacker Cup。你以前也是数学比赛选手吧？

Mark：对，我从小学、高中都在做数学竞赛。不过我真正写代码很晚，是大学室友怂恿的。当时我还有点数学系学生的傲气，觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了，而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛，算是朋友间的活动。后来我发现自己还挺有天赋，又开始给美国国家队出题、最后去带队。既是激烈比赛，也是一个紧密社区，大家之后都会在科研界再相遇。

Ashlee：那你这么忙，还能当教练？

Mark：其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研：有好时段、有坏时段，你不能因为连续失败就被心理打倒，很大部分是士气管理。我最近在带模型做竞赛题时也发现，模型的“难度直觉”跟人完全不同，人认为ad-hoc的题模型反而容易。这让我更相信未来的科研是“AI+人类直觉”的组合，会产生新的突破。

Ashlee：有点像AlphaGo的“Move 37”时刻？

Mark：是的。我觉得GPT-5 Pro发布之后，前沿科研有了拐点。发布三天后，一个物理学家朋友把他的最新论文丢进去，模型想了30分钟就完全搞懂，他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。

Ashlee：但当AI开始做那些原本属于顶尖人类智力的事，会不会让你觉得有点伤感？

Mark：竞赛是我很喜欢、也曾经擅长的东西，但我也看着模型从普通选手水平爬到超过我，再超过Jakub，就像亲眼看到自动化的速度快得不可思议。去年模型在coder比赛还只是排100多名，今年已经能冲进前五。变化太快了。

Ashlee：那十年后还会有人类比赛吗？

Mark：会的，因为它本质上就很有趣。那些只是为了简历而参加的人会消失，但真正热爱的人不会。

Ashlee：我采访别人时，他们说有些国家只要IOI奖牌就能直接保送大学。

Mark：是，但我觉得未来这些考试本身会被AI打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟ChatGPT对话，由一个不会被越狱的特别版ChatGPT判断他们是否具备在OpenAI工作的能力。

Ashlee：你家里有很强的科技背景，你父母都在Bell Labs，对你影响很大吧？

Mark：我从小吃饭桌上就是各种科学谜题。后来搬到西岸，我爸做创业，让我看到初创公司的另一面。再搬到台湾读书，又是完全不同的文化，纪律性更强。各种经历混在一起，形成了今天的我。

Ashlee：你MIT那届是名人辈出的超级年份吧？

Mark：是，2012年那一年特别厉害。Jacob Steinhardt、Paul Christiano，还有后来AI领域很多重要的人物都在那一届。

Ashlee：你也通过竞赛认识了Cognition的Scott Wu，那些在X上被当成数学meme的人。

Mark：对，我们就在竞赛社区认识。

Ashlee：你从MIT毕业后，直接去了华尔街。

Mark：老实说，我对在华尔街做高频交易并没有太多自豪感。当时在MIT，许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”，只要足够聪明，你就能获得对应的收益。然而文化上我并不适应。在那种环境里，当你发现了什么突破，第一反应是把知识藏好，因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统：即便某家HFT公司的算法快了一点，外界其实几乎没有任何感受。我做了四五年后发现，我们始终在跟同一批对手竞争，大家都稍微变快了，但世界并没有因此改变多少，我觉得是时候做点别的事了。

当时AlphaGo的比赛对我触动很大。虽然我并不下围棋，但看到模型展现出的创造性，我特别想弄明白背后的原理。

Ashlee：所以你是看到了那场比赛后，才开始关注AI？当时你有在读论文吗？

Mark：坦白讲，没有。直到AlphaGo之后我才开始深入研究AI。我的第一个目标就是复现DQN的结果，复现一个能在Atari游戏中达到超人水平的网络，那基本就是我踏入AI的起点。

Ashlee：你是在上班后业余时间做这些吗？我记得我大概2018年采访George Hotz，他在自家车库做自动驾驶。他当时说，AI仍然很年轻，只要读10到30篇论文，就能掌握整个领域。当然他的话未必完全准确，但AI的确很特别：历史很长，但此刻却异常“浅”。

Mark：确实非常“浅”。我常建议对AI望而却步的人：只要花三到六个月做一个项目，比如复现DQN，就能很快触达前沿。过去几年虽然增加了一些深度，但远没有理论数学或物理那么深奥。

Ashlee：你觉得AI会像数学一样，天才都在二十几岁出现突破吗？还是这是一个可以做一辈子的领域？

Mark：我认为完全可以持续做下去。OpenAI的文化确实偏年轻，但做好研究并不需要年轻。年轻人确实因为“先验少”，更容易突破传统路径，但随着经验增长，你也会形成自己的视角和框架，这既是优势，有时也会让你更固化。

OpenAI的内部故事

Ashlee：你在2018年加入OpenAI，那时公司应该只有50人左右？

Mark：差不多20人而已。我是以“研究员resident”的身份加入的，也就是OpenAI会从其他行业招人进来集中训练半年，像压缩版PhD，然后再参与更深入的研究项目。我很幸运能向Ilya学习，他基本决定了我的项目、学习路径和方向。

Ashlee：但如果去LinkedIn看，你的第一份OpenAI的头衔看起来像是“前沿研究主管”。

Mark：并不是，我做了三年左右的个人研究（IC）。当时我主要研究生成式模型，因为那是Ilya最关注的方向。之后我才开始带团队。

Ashlee：公众最早看到的大项目可能是DALL·E，对吗？

Mark：是的。其实在那之前，我最自豪的项目之一是Image GPT。它证明了Transformer不止能处理文本，也能在图像上学到强大的表示能力，是DALL·E的前身。而另外一个我非常自豪的项目是Codex，我们搭建了代码模型的评估体系，也探索了如何让语言模型在代码任务上达到高水平。

Ashlee：那你当初为什么选OpenAI？是因为当时这个小公司里有很多有意思的人吗？没钱、没人、前景很不确定，居然要挑战Google这种巨头。

Mark：我觉得一个组织要成功，需要两个条件：宏大的愿景和与之匹配的天才。当时OpenAI两者兼具，这非常罕见。而且我认识Greg，我们以前参加过数学竞赛，我给他发消息说：“我不确定自己是否适合，但这里似乎在做重要的事情。”

Ashlee：但你从外部加入，然后现在成为研究负责人，这听起来还是很不可思议。

Mark：对我来说也很不真实。从IC转管理者，我其实非常犹豫。不过一路上我遇到的管理者都非常支持我，他们看到了我的潜力，会主动为我争取机会。我从没主动要求升职，每次都是自然而然的结果。管理这件事，本质上主要靠经验累积，而OpenAI是一个能让你不断获得“经验值”的地方。

Ashlee：我认识的你是一个温和、稳重的人。但OpenAI过去几年经历了很多戏剧性的风波，甚至像“权力的游戏”。你要在这种环境里做管理，这和你的性格几乎相反。

Mark：老实说我在OpenAI算是很幸运。一路上都有人支持我、给我建议，也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。

Ashlee：不过你在“政变事件”那段时间做了两件很重要的事：你先帮助研究员们统一意见、促成那封让Sam回归的请愿信。然后一两天之后，你在Chelsea家做了一次很重要的短讲。这两个瞬间对我而言都很震撼，在危机时刻挺身而出、凝聚团队……这对你意味着什么？

Mark：对我而言，那确实是一个关键时刻。“风波”后的几天里，整个团队都处在高度不确定中。那段时间，我、Nick和Barrett都感到一种责任感：竞争实验室正不断向我们的研究人员打电话，试图把他们挖走。我当时给自己设下目标：不能失去任何一个人。最终我们也做到了。

那几天，我们每天都把自己的家打开，让同事随时过来，释放焦虑，同时保持他们与领导层的沟通渠道畅通，让大家知道自己仍然能发挥作用。渐渐地，团队形成了一种“我们一起面对外界”的精神，大家都在思考：如何向世界传达“我们仍然站在一起”。

当时我在几处房子之间来回协调，我们提出了组建请愿书的想法，表达我们支持Sam的立场。大概凌晨两点，这个想法最终确定下来。到第二天早上，研究团队已有90%以上的人签署，到最后接近一百人都签了。那一整晚，大家都在互相打电话确认：“你参加吗？”

Ashlee：但你当时的处境应该挺尴尬的吧？毕竟一开始似乎是Ilia和Sam立场对立，而Ilia又是你的导师。后来Ilia又回来了……那会不会让你很尴尬？

Mark：不会说尴尬，但确实很困难，因为那是个信息极少的环境。那时候确实很容易怀疑：Sam到底做了什么？但换个角度想，如果真有严重问题，Greg和Jakub这种极其正直的人会因此辞职吗？我觉得肯定有部分事实被误解了。

Ashlee：Jakub在那里工作很久了。关于他，有什么是外界不了解的？

Mark：他其实非常幽默，带着强烈的讽刺感，我常常被他逗得发笑。和他共事让我最珍惜的一点，是我们之间高度的默契。进会议室后，我们能迅速碰撞出一致的结论，然后分别负责路线图的不同部分。

说到“把团队留在一起”，我现在仍有这种使命感。我认为我们仍然“被攻击着”，任何公司想要招人时，第一选择往往是从OpenAI下手，因为他们想要我们的专业能力、愿景和世界观。OpenAI造就了今天AI领域最多的明星研究员，因此我们对团队有强烈的保护欲。只要有人来挖，我就会尽一切努力确保团队感到被重视、被理解，并清楚自己在整个路线图中的位置。

Ashlee：在写书、回顾历史的过程中，我一直在想：这是否是一个高度依赖“天才个体”的领域？从2012年Ilia的突破，到2017年Transformer，再到Alec Radford……似乎每隔几年就有那么8–10个关键人物在推动整个领域。如果他们离开了，比如John Schulman、Alec离开了，那对团队不是巨大损失吗？但你们之后仍然在推理和其他方向取得了突破。

Mark：我并不同意“完全依赖明星个体”这种说法。OpenAI的确会从上层做方向性押注，但我们内部有非常深厚的自下而上文化，很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展，是非常美妙的事，推理方向就是典型例子。

Ashlee：但行业确实会花大价钱去挖“明星”，比如Google花巨资请回Noam Shazeer。

Mark：当然，人才既有培养也有争夺。反过来，我从Meta学到的一点就是：OpenAI自己也可以非常积极地争取顶尖人才，我自己也从他们那套激进的招聘策略中学了几招。归根结底，我们的目标始终是：组建一支最强的团队，完成我们要实现的使命。

Ashlee：这个圈子其实很小，你们虽然竞争激烈，但私下也都是朋友。那边做研究，这边又试图挖对方的人，这不是很微妙吗？

Mark：这是残酷竞争的行业，但我个人也非常享受竞争。我讨厌失败，因此无论是研究还是招聘，我都会全力以赴。

Ashlee：这让我想到半导体行业早期也是这样：工程师们不断突破物理极限，在酒吧里分享最新发现，同时又被各家疯狂挖角。

Mark：是的，任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应：一种是建立深度信息隔离层，严密保护一切；另一种是继续保持开放文化，用速度压制对手。OpenAI明显是第二种，我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法，这才是最快的前进方式。

Ashlee：那现在你、Sam和Jakub之间的合作方式是怎样的？大家都能看出来Sam更偏研究，而你们两位更深度参与技术细节。

Mark：我们三个人联系非常紧密，我每天都会和他们交流。Sam热爱研究，也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”，比如潜在问题、工作环境中的隐形障碍，他能帮我把这些提前揪出来。Jakub和我则更专注于如何设计组织、让团队以最高效率协作，比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。

Ashlee：Sam平时看论文、和你们聊天吗？

Mark：对，他会看论文，也会经常与研究人员交流，理解他们的研究方式。当然，他还负责范围远超研究的事务。

OpenAI到底发现了什么？

Ashlee：我知道你们最近在预训练方面似乎有了重大突破，也明显比之前更有信心，能透露一下你们到底发现了什么吗？

Mark：我对过去两年的总体观察是：我们把大量资源投入到“推理”这一能力的研究上，努力理解并打磨这个核心原语，这条路确实走通了。但副作用是，模型的其他重要环节，特别是预训练和后训练，相对失去了些“肌肉”。过去六个月里，Jakub和我花了很多时间把这部分能力重新练起来。

我一直把预训练看作一种“肌肉”，必须持续锻炼：信息要保持最新，团队要在优化、数值计算等前沿方向持续投入，同时也要确保有足够的心智关注度。所以我最近一个重要工作，就是引导公司内部的讨论重回预训练，我们认为预训练还有极大空间。

外界有人说“Scaling已死”，但我们完全不认同。某种意义上，行业现在把注意力集中在RL，这反而给了我们“信息优势”，因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力，我们最近训练出的模型明显更强，这也让我们对包括Gemini 3在内的接下来一系列发布更有信心。

Ashlee：我脑中对这段历史的画面是这样的：你们跑得太快了，整个领域也跑得太快。突然之间，我们从互联网收集到巨量资料，把它扔进一台超级计算机，于是ChatGPT诞生了，然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说，问题可能是：最初那波数据其实非常粗糙，只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”，但外界很难理解到底之前的“错误”是什么。

Mark：你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式，模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限：当你模仿人类时，你很难真正超越人类。

这也是为什么RL重要，它让我们有机会把模型推向更难的任务，让它从人类范式之外思考，拓展能力边界。但随之而来的，是一个更困难的问题：如果我们要让模型真正超越人类，该怎么衡量？

例如，在科学领域，当能力达到了“超人类”水平，人类真的能够判断A比B强吗？如何判断一个“超人类数学家”比另一个更厉害？我们需要更好的评估体系。迄今为止，我们很幸运，IMO、IOI等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类，这些测验本身就失效了。

Ashlee：我常看到那些竞赛牛娃后来进Google、Facebook，但他们不一定是最顶尖的工程师，也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来AI在这些竞赛上表现极佳，我们到底能从中学到什么？

Mark：这正是我喜欢AI研究的地方，它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是：你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断，例如路线选择、资源配置、项目方向。如果判断错误，很快就会失去团队的信任。

我很享受与这样一群极度技术驱动的人共事，他们都深度投入、极高水准，与他们讨论技术本身，是一件真正的乐趣。

Ashlee：在我心里，Transformer是一次巨大飞跃，而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam交流时，我感觉你们说过去三到五年投入的大量工程工作，其实还没有完全显现出来。你们现在看到的，是另一场类似Transformer的跃迁吗？

Mark：我认为是的。比如在GPT-5时，我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力，我们正在快速扩大投入。关键仍是维持一组多样化的探索，把最有实证价值的方向加大力度推进。

Ashlee：但两周前，Karpathy在播客上说AGI可能要十年；上周Dario又说更接近两年。行业内部声音完全不一致。你怎么看？

Mark：Twitter很喜欢那种“结束了！”“又回来了！”的戏剧化循环。但AGI本身连定义都不统一，在OpenAI内部，你把所有人叫到一个房间，也不可能给出一个完全一致的AGI定义。

我更把它类比成工业革命：你说纺织机是工业革命，还是蒸汽机是？视角不同，切点也不同。对我而言，我更看重的是：模型是否开始产出真正新的科学知识？是否推动科学前沿？从今年夏天以来，我感觉在这方面出现了巨大的相变。

Ashlee：你说的新科学成果，是不是指最近那些生物科技初创公司，比如一次性设计抗体、分子结构那类突破？还是你指的另有其事？

Mark：那次与物理学家的交流给了我很大启发，我回去后就想，我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家，能够获得最大程度的支持。我知道其他公司也在推动科学前沿，但我们和谷歌等机构的不同之处在于：我们希望让所有科学家都有机会借助工具做出诺奖级突破，而不是让OpenAI自己拿诺奖。我们要构建的是通用的工具与框架，让科学界整体都能加速。

Ashlee：你能具体说说有哪些让你兴奋的发现吗？

Mark：当然。你可以去看Sebastian的推特，他最近发了关于GPT-5在一个开放凸优化问题上取得进展的论文，这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”，但远比这复杂。

Ashlee：这两天听到有人声称“我们做出了AI科学家”“我们一次性设计出增强型蛋白质”，这些公司里不少是真正的科学家，我也多少会兴奋。但数量实在太多，我很难判断哪些是真正的突破、哪些只是噪音。

Mark：如果这些突破发生在生物领域，我一点也不意外。尽管我主要的专业在计算机科学和数学，但我们团队里有顶级专家，他们确认了不少是真正的科学发现，生物学里出现类似情况并不令人惊讶。

Ashlee：但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说AI没什么进展，都是虚幻的。如果这些发现是真的，公众应该会感受到变化才对。

Mark：我们在筹建OpenAI for Science时与许多物理学家和数学家交流过，其中大多数人对AI其实并不乐观，他们觉得模型不可能证明新定理。但正因为如此，我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快，我们希望为他们提供工具，也希望说服更多研究者：这是未来科学研究的正确方法。

Ashlee：每个人对AGI的定义不同，但你似乎认为未来一两年会发生非常剧烈的变化？

Mark：“AGI两年后到来”一直是个梗，但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果，让我真正产生了信念。在OpenAI内部，我们设定了两个非常具体的目标：

第一，1年内改变研究方式：让研究过程可以依赖AI实习生。也就是：研究者负责提出想法，模型负责实现、编写代码、调试。

第二，2.5年内让AI能进行端到端研究。这意味着：研究者只确定方向，模型完成从构思到执行到验证的全过程。

与今天相比，这是完全不同的研究范式。

算力、GPU与AI硬件

Ashlee：在与OpenAI的人聊时，我常听到一句话——基础设施扩张得很快，模型只要算力再提升10倍就会变得更好。但也有人说从GPT-4到GPT-5，你们算力增加了，却没有看到预期的效果。可你们的叙述又让我觉得：其实我们还没真正看到“10倍算力飞跃”带来的结果。

Mark：有人问我：“你们真的需要这么多算力吗？”我总是被这个问题震惊，因为我每天面对的都是海量算力需求。如果我们今天多3倍算力，我能立刻高效用完；如果多10倍，大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多GPU吗？”对我来说毫无意义。

Ashlee：那除了算力需求，你们对模型规模继续扩大是否同样乐观？你们是否看到，类似“规模效应”会再次推动巨大跃升？

Mark：是的，我们非常明确要继续扩大模型规模；而且我们有突破性的算法能支持更有效地扩展。我认为Gemini 3也很令人印象深刻，但从细节看，比如SWE-bench等指标，他们在数据效率方面仍没有重大突破，而这是我们非常强的部分。

Ashlee：我看到了一份泄露的备忘录，Sam对Gemini 3的语气听起来相当严肃，仿佛是一个转折点。你们内部应该都看过吧？

Mark：是的，但你要知道，Sam的工作之一就是不断在组织里注入紧迫感，我也一样。我们必须保持专注，加快节奏。Gemini 3是谷歌该做的正确押注，但与此同时，我们也有明确的策略与回应，并且我们有信心执行得更快。

Ashlee：你们会参与像Jony Ive的AI设备这样的项目吗？比如研究团队在其中扮演怎样的角色？

Mark：是的，事实上，就在昨天我和Jony Ive以及几位研究负责人一起吃了晚饭。我一直在思考未来的ChatGPT会是什么样子。现在的交互方式对我来说还很“笨”，非常非思维原生：你给一个提示，它回答；你不提示，它就停止思考。而且如果你再给出类似的问题，它会重新花一样多的时间推理，仿佛没有从第一次的上下文中变得更聪明。

未来显然应该不同。记忆会是核心能力：每次你使用ChatGPT，它都会学到关于你的更深层次信息，思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来，它会变得更好。我认为这会彻底改变“设备”的范式，因此我们必须思考：如果AI的主导逻辑是持续学习与反思，那硬件设备应该怎么重新设计？这就是和Jony合作非常有价值的地方。

Ashlee：你们已经有设备原型了吗？

Mark：我不能说有没有，也许有，也许没有。

Ashlee：我想到的是：苹果时代的核心是“硬件品味”，这是Steve Jobs极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam的审美看得出来不错，但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的，你们怎么确定自己能做出好产品？

Mark：坦白说，我们不需要自己拥有那种品味，那是Jony的价值，他就是我们关于“品味”的判别器。而且很有趣的是，我们发现设计流程与AI研究流程之间有深刻的相似性：大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅：他们根据我们即将发布的能力去思考外形，我们根据他们的外形需求去思考能力。

Ashlee：我有时会担心：一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说，似乎你们形成了一个合理的搭配。

Mark：确实，打造AI能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题：“ChatGPT最喜欢的数字应该是什么？”这种问题能检验模型的“人格品味”一致性。

最后的问题

Ashlee：ChatGPT建议我问你：如果五年后回看，现在有哪些“还很脆弱”的想法，你直觉认为可能是大突破的核心？

Mark：确实有几个，我非常期待把它们规模化。主要集中在预训练，一些在RL，还有一些是如何把所有组件整合在一起的整体性想法。

Ashlee：你觉得现在外界对OpenAI最大的误解是什么？

Mark：最重要的一点：OpenAI从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是AGI，其他所有产品都会自然从研究突破中流出。

我们关心三件事：自动化AI研究本身、自动化科学发现、自动化经济性工作。今年最大的更新，其实是第二条：科学研究的自动化开始真实发生了。

Ashlee：你几岁了？还有社交生活吗？

Mark：34，快35。老实说，没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点，那就必须抓住它。Barret离开去创业之后，我在办公室睡了一个月。那段时间我非常强烈地感到：我必须保护研究，这是我最在乎的东西。

Ashlee：DeepSeek事件之后，你们怎么看开源模型？

Mark：那是第一次让我深刻意识到：必须坚定走自己的研究路线。DeepSeek当时引发巨大舆论，大家都在问：“OpenAI落后了吗？要怎么回应？”但我们做得最正确的一件事，就是继续执行自己的研究规划。DeepSeek的工作非常强，但主要是对我们O系列理念的复刻。关键是，我们必须继续创新。

Ashlee：你认为500人是一个最优规模吗？随着公司扩大，这个数字会增长，还是说为了同时推进若干重大想法，500人已经是最合适的规模？

Mark：坦率说，我认为甚至可以更少。尤其在我们开始引入AI研究员或AI实习生之后，我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度，我做过一个实验：完全冻结研究部门的新增人头。如果团队想招人，就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀，并保持极高的能力标准。

Ashlee：我记得之前在一次会议上，你和Jakub的观点比较一致：你们认为大家过度关注“谁在项目里获得署名”这个问题。AI起源于学术界，在学术环境中署名极其重要。但那次会议里，你似乎在强调：大家可能对这个问题有点太执着了。是这样吗？是不是因为现在OpenAI已进入新的阶段，在公司环境下，这件事不再那么重要？

Mark：我认为过度关注“功劳归属”是件坏事。但另一方面，我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度，但Jakub和我最终决定OpenAI必须保留署名。反对意见常常是：“你们把顶尖人才的名字摆在台面上，其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到，我们应该持续培养AI领域的明星研究者，也应该让真正做出贡献的人建立起自己的声望。

Ashlee：但你似乎又同时认为，研究员个人不应该过分执着于署名了？

Mark：现场确实有人表达过那种观点，但其实Jakub和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳，哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说：OpenAI可能是整个行业里，最愿意给研究者公开署名的公司，没有之一。

Ashlee：你2018年加入时，OpenAI还是一个研究导向、非营利的组织，创始人希望它成为Google的平衡力量，并以“确保AGI安全到来”为目标。而你来自华尔街高频交易，只是被AI的进展吸引过来。说实话，你并不“必须”对AGI的哲学问题深怀使命感。那你究竟为什么要做这件事？

Mark：我同时管理OpenAI的对齐团队。坦白说，未来一两年最重大的难题，就是对齐问题。在这个研究方向上，OpenAI在过去一年做出的成果可能是整个领域里最好的。

原因之一是：在RL与算力增加后，我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险，因为模型最终给你的答案可能是“正确的”，但它得到答案的过程却完全偏离我们能接受的路径。

随着模型替我们执行的任务越来越复杂，理解它的思维过程将变得极其关键。

Ashlee：这和机械可解释性有关，也就是试图理解模型内部机制的问题。核心问题是：我们的理解能力能否跟得上模型复杂性的提升？还是会最终被模型甩得太远？

Mark：我们在发布O1时做了一个关键决策：我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”，它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预，我们仍然能“看到”模型真实的思维轨迹，并将其作为研究对齐的重要工具。

几个月前，我们与DeepMind、Anthropic合作发表了一篇论文，探讨未来如何通过这种方式理解模型。我确实担心未来某一天，模型给出非常有说服力的答案，但我们无法确认它是否真正与人类的价值一致。

因此有很多值得探索的方向，例如：能否设计一种博弈或环境，让模型在互相监督、共同演化的过程中，唯一稳定的均衡，就是“诚实”？我认为这里还有大量非常重要的研究要做。

参考链接：

https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

“Gemini3不错，但我们也快发了”：Mark Chen评价谷歌大模型，讲清OpenAI如何给300个项目排GPU优先级

大 家 都 在 搜

大家都在搜