清华吴翼：离开OpenAI，我有后悔过吗？-虎嗅网

本文来自微信公众号： Z Potentials ，作者：Z Potentials，原文标题：《Z Tech｜清华吴翼：离开OpenAI，我有后悔过吗？》

作为清华“姚班”的传奇校友，他曾是IOI的银牌得主；作为OpenAI早期的核心成员，他亲历了那群被主流学界视为“神棍”的非主流天才如何用非共识打破了Google的围剿；而作为清华大学交叉信息研究院的助理教授和AReal项目负责人，他又在这个巨头林立的时代，试图在构建属于自己、不断拓展的人生算法。

本期访谈，我们有幸邀请到了吴翼老师。在这场长达两小时的深度对话中，他直接戳破了“成功的Researcher”这一虚幻标签，还原了OpenAI早期不为人知的“草台班子”文化，并对当下中美大模型产业的“蒸馏”现状与芯片市场的确定性做出了极具穿透力的预判。让我们一起走进这次关于“祛魅”与“求真”的对话！Enjoy!

01 OpenAI曾是一个“二流班子”？

ZP：那个时候你有意识到OpenAI会成为现在这么大、这么受全球关注的一家公司吗？

吴翼：我觉得不会。因为在2018年那个时间点，OpenAI是真的非常非主流。对于我们这种受过正统科班训练的人来说，你当时一看Google Brain或者Facebook AI Research，基本由知名PhD组成，全是Big name。相比之下，看一眼OpenAI，你就会觉得：“这也太草台了吧？”

当时的Facebook AI Research里坐镇的是啥人？是何恺明、Ross Girshick这种级别的；Google Brain里是Sergey Levine、Samy Bengio这种Big Name。

再回头看当时的OpenAI有谁？Ilya Sutskever（ZP注：OpenAI联合创始人、前首席科学家，主导AlexNet以及GPT以及DALLE系列模型的研发）算是一号人物。但在当时，大家多少觉得Ilya这人挺“神棍”的，天天宗教式的念叨“Compression is intelligence”。早期如果不是因为有Pieter Abbeel坐镇，OpenAI可能连科研的场子都撑不起来。正因为有Pieter把他的一帮徒弟带了过去，OpenAI才正儿八经做了三年Rigorous Research，产出了一些很好的早期RL工作。

结果2017、2018年Pieter前脚刚走，OpenAI就端上来一些看起来很“非主流”的项目，比如用AI玩Dota。

当年Dota项目的核心槽点在于——隔壁DeepMind刚攻克了围棋（AlphaGo），同时星际争霸项目AlphaStar也有很大的影响力；OpenAI作为后来者选择去搞Dota项目，有一种“刻意为了搞学术PR而做项目”的感觉。在当时的学术界看来，OpenAI并不被大家认为是个顶级的研究组织。我当时入职的时候，我们组里面，除了团队负责人Igor Mordatch，只有我是正儿八经的科班CS PhD。其他人根本都不是——有本科生，有神经科学家，来自俄罗斯英语说不利索的开源大哥，还有做Unity游戏开发的。

跳回到那个时间点，抛开现在的上帝视角，你肯定会觉得这帮人挺非主流的。

再举个例子，我当时的同事也是我的好朋友Lilian Weng（ZP注：翁荔，原OpenAI安全系统负责人，Thinking Machine Labs cofounder），她在加入OpenAI之前的履历是Stanford的Master以及Dropbox的Software Engineer。在那个年代，大家不会觉得这符合顶级AI人才的画像。跟Google Brain和FAIR的全明星阵容一比，OpenAI肯定看着像是草台班子！

但OpenAI最大的优势在于，它的Mission很统一，这和硅谷其他研究所很不一样。我印象里反差最大的是FacebookAI Research（FAIR）。我在FAIR待了一年，现在回头看，当年FAIR的问题恰恰是每个人都是Famous Researcher，所以每个人想的东西都完全不一样。所以当时在FAIR，最稀罕的反而是他们的研究工程师们——因为Researchers要找靠谱大哥来帮他们做工程开发。而工程师的编制又比Researcher少，最牛逼的工程师就特别吃香，你要去忽悠他：“你来我这儿干行不行？”

所以这是一个很神奇的状态：一边是自由探索的科学家们，另一边是统一的“PR项目”。当然不是说不应该自由探索，科学精神本就应该是自由的，只是恰好在AI这个时代，工程化和使命尤其重要。而OpenAI最大的优势在于，它把一堆‘莫名其妙’的人聚在一起，做到了极致的工程化，并坚持了下来。这件事对我触动很大，以至于后来我自己的团队也很工程化。

ZP：很多时候都是时代的机遇，非常随机。但回头看你的选择，比如带着一些运气的成分跟着Pieter Abbeel，这种职业路径让你错过了一些机遇吗？比如留在字节工作，或者留在OpenAI去拿OpenAI的早期期权，现在说不定已经财富自由了。对于这些错过，你现在会如何复盘？

吴翼：以前确实复盘过，不过现在已经看的很淡了。这里其实有两个角度：第一个角度是，很多时候你不能回头去复盘，你只能站在当下。因为人在当下是永远看不清楚未来的，你当时只能去做一个“看起来很理性、或者当下看起来比较好”的选择。我算是运气很好的，是因为时代给了我选择的机会，我才能在这里聊过去。其实清华的同学大多都会有很多机会，稍微选一选都不会太差的。能有选择的机会已经很幸运了。

第二个角度是，过多复盘并不利于探寻未来前进的路。就拿我OpenAI的经历来说吧。如果我当时多留半年拿到期权，的确会让我现在有不少钱，就有能力对很多事说no了。再比如创业，如果当时我不启动边塞科技，或者边塞科技如果坚持到2025年会不会更好呢？这是人的本能反应。但往往糟糕的事情就发生了：人回头畅享的时候，很容易心里产生杂念，叫如果我当时知道它能赚钱，我就会做出另一个选择。哪怕仅仅是一瞬间的反应，都很容易造成对未来持续的影响。这种悔不当初的念头或者对于这种念头的畏惧，恰恰就是很多人在追求学术理想和赚钱之间不断纠结拧巴的原因。所以，很多时候纠结只能说明，你并没有真正理解和接纳自己。作为研究员，我过去曾经时常给自己营造了一种“我在追求纯粹的学术理想”的幻觉，但是这真的纯粹吗？回头看其实我曾经在不少的时间里面心理还是产生了各种的杂念的，比如会想自己错过的钱。

不过我也是经历过了才能比较坦然的跟大家聊这些。正是因为你曾经做了这样或那样的选择，然后回头发现自己好像并不如自己想象的那样纯粹的时候，你才会开始真正的开始思考：自己到底想要什么？正是因为做了离开OpenAI这样的选择，做了创立边塞这样的选择，不停经历波折、产生杂念而自知，我才开始更理解自己一点。这是没办法的，人不太可能什么都不经历就能理解自己的。不过我也希望大家都能简单顺利开心点，没苦不用硬吃，没事少瞎想哈哈。

ZP：有没有哪一个工作，一开始没有被特别看好，是个反共识的事情，但后来证明是对的？或者你在OpenAI经历中，带给你最大收获的点是什么？

吴翼：OpenAI这段经历对我触动非常大。第一点，我一直都很喜欢Large Scale/Scaling的东西。当年申请PhD的时候，我Personal Statement里写的就是想做Machine Learning System。但我博士生导师对Scaling不是特别感冒，所以我读PhD时虽然做了一些偏System和Engineer的工作，但还是算法多一些，没有完全朝着极致大规模计算的方向走。到了OpenAI之后，我发现那里的氛围非常推崇Scaling，这一下就激发了我本来就想做的事情。

第二件事是激发了关于Agent和Multi-agent更开放的想法。当时在OpenAI早期，带我的领导是Igor Mordatch（ZP注：Google DeepMind资深研究科学家，OpenAI早期核心研究员。），也是我早期的一个Co-author。后来换到了Jeff Clune（英属哥伦比亚大学副教授，曾任OpenAI机器人团队研究经理、Uber AI Labs创始成员及Google DeepMind高级研究科学家），他是个和我研究风格非常不一样的人，这种合作的经历也给我带来很多启发。

02中美RL与Agent的反思

ZP：Igor和Jeff分别给你带来了什么影响？

吴翼：Igor是一个非常典型的主流AI研究领域的PhD，他是拿了CMUFaculty offer然后来OpenAI的，后来又去了Google。我们一起合作做了非常好的工作，hide-and-seek这个项目的视频至今还是OpenAI YouTube历史播放最多的视频。Jeff风格就完全不一样，但是他让我发现了去看待问题的另一个世界。Jeff是做进化算法的。你会发现，在Berkeley、Stanford接受过严谨机器学习训练的科班出身的人，去看待搞进化算法的人，会觉得他们写Paper就像“神棍”——一页纸就一个公式，举一个特别Toy的例子，然后通篇都在跟你讲人类世界、自然世界是怎么运转的Philosophy

我强调一下，“神棍”这个词在这里是个中性词，更多的是指和主流机器学习数学驱动的方法论很不一致。我的领导换成Jeff Clune之后我被迫学习了很多进化算法的东西，学完发现，他当然有局限性，但其实还是有不少有趣的套路的：比如Population-based algorithm，比如他们去设计实验和展示想法的独特的甚至有点“邪门”的角度。你很难去做数学证明，但确实对我产生了很大的冲击。

科班出身的学术圈排斥进化算法是有原因的，因为它在当时确实没有产出特别Solid的结果。Rigorous Machine Learning后来成为了主流，大家习惯于用优化算法的方式考虑问题，但这不代表这是唯一的方式，也并不代表进化算法领域里没有可以借鉴的Idea。

跟Jeff Clune的合作彻底打开了我的思路，让我意识到“我靠，还可以这样想问题”。这对我后来的启发挺大的，让我的思维更加跳脱一点，不那么局限。如果不在那个地方，你可能根本接触不到Jeff，也没机会去认真的研究一下这些稀奇古怪但又很有意思的事情。

ZP：那你觉得现在跟过去相比，你更了解自己的点在哪里？比如未来的方向，学术界还是工业界，你看清楚了吗？

吴翼：我觉得学术界和工业界其实没有这么绝对。比如王鹤（ZP注：北京大学助理教授。银河通用创始人之一）老师或者唐杰老师，他们算学术界还是工业界呢？再比如大家可能比较关注的杨植麟（月之暗面创始人），他也在清华当过几年助理教授。所以这很难讲。

不需要把这个边界放得这么对立。本质上是这个时代、国家把业界的资源和机会给到了科学家，所以才会出现“在学校里的科学家或企业家”这种新物种。这是时代给的机会，宏观上不由自己决定。

对我自己而言，我可能心态更松弛一点，更能接受这个世界是怎么运转的。大家都会觉得你一定要有个Role model，觉得“吴翼你为什么不去做一番伟大的事业、做个伟大的企业？”现在我对这些问题可能就笑一笑不回答了。我个人会更松弛一点。，我觉得可能得到一个Timing，自然就知道自己想选择什么路，那个Timing目前还没到。伟大是时代的选择，不必强迫自己。

ZP：你能点评一下比如豆包、千问、DeepSeek和Kimi这些大模型目前的整体进展吗？

吴翼：我觉得豆包更像是一个很全能的产品，长期来看豆包肯定是很厉害的。因为字节的资金确实是第一梯队的，产品也一直做的很扎实。相比之下，Kimi和千问确实是用更少的钱，做出了非常高质量的工作。至于其他家，我就不好说了。但只要目标很明确：你的每一代模型都能够在特定有价值的Benchmark或能力上保持和世界最好的模型On par，只要不掉队就可以了。

国内大部分的厂商其实都在做蒸馏，比例很高。但其实蒸馏这件事要做好也不容易。因为这里面有很多资金人才和算力的问题，以及如何拿到用户反馈的问题。Claude能做好除了因为长期专注，很重要的原因是它有极强的用户反馈——几乎所有最高质量的AI Coding用户数据都流向了Claude，带来了特别显著的头部飞轮。不过另一个角度来说，这里也有机会：虽然国内大模型预训练会差一点，但因为Coding这个领域里有很多是Post-training的事情，靠蒸馏也会更容易追一些。

那就有人会说，比如“既然如此，我们就没必要做原生模型了，全靠蒸馏就好了”。我个对这种观点是不赞同的。首先，你依然需要一个Reasonable的Base模型。基础模型不好，再蒸馏也提高不上去了。然后，蒸馏也没大家想的那么容易。

除了post-train数据是难题，agentic coding场景下的任务拆分数据也并不好搞。就算有数据，你也不可能只拿开源的base模型光做SFT，那你的天花板也会很低。你想往后做泛化，还要做RL，如果你没有一个自己非常清楚数据边界的干净的base模型和很好的RL基础设施，往后做会很头疼。虽然门槛比别人低，但依然需要很强的人和团队去做。

ZP：你觉得这些靠蒸馏的公司会一直存在吗？为什么美国没有特别多这种现象？

吴翼：美国有他们的头部企业，头部企业蒸馏效果其实有限。相比国内，大家的目标是不一样的。我们核心是要首先要快速的保持能On par。我觉得这是一个非常合理的短期生存策略。一旦你不能On par，可能就完了；只要你能保持On par，就能保证持续的迭代下去，就有机会赶超。首先保持生存非常重要。

ZP：你觉得AI时代这种企业组织形式会有什么变化吗？当年OpenAI那个团队规模在那个时候可能合适，但Facebook就不一样。

吴翼：这里有两个角度：一个是新企业、新团队；另一个是老企业的团队转型。

新崛起的团队，情况是他们确实会更Native。他们需要的人更少，要的是精英集中，包袱很小，迭代速度非常快。尤其AI会放大那些最顶尖人才的状态。比如我们做AReaL（分布式Agentic RL训练框架）这种级别的项目，对于知识、技术甚至认知迭代门槛都非常高。但即使这么复杂的项目，我们团队最厉害的大哥，他已经一个月没有自己写过代码了。他的所有Pull Request都是用Claude Code跑出来的。他去理解系统瓶颈，去做创新设计，而代码维护工作就不太需要他亲自去做了。在Claude Code辅助下，整个团队所需要的人一下子就会很少，人少就会自然没有很多大团队的组织问题。

这是新企业。但我一直相信这里会带来一个新的问题，也是大家很少讨论的：老企业怎么办？

有两种方式。一种是强行的自上而下的转型。比如像Meta、像字节，有一个特别强势的、年富力强的一号位CEO，他可以直接对团队做自上而下的绩效和组织状态的重大改变。

但如果再老一点的企业呢？比如传统国企？或者历史悠久一些的企业？AI对于传统企业的介入，就没有那么简单，可能会变成一种新的类似咨询的方式。它需要自上而下的改变。这不仅是买个云服务、用个飞书就能解决的“信息化改造”，这涉及到整个组织的评估模式和组织模式的改变。这对每个一号位的要求都特别高。

03学术界的“无用之用”，在巨头阴影下寻找自由

ZP：研究Agent的RL，这是一个Compute-heavy的事情，可能大厂才玩得起。你对学术界如何参与这个方向有什么建议？

吴翼：我觉得可以从两个角度去看。

首先，我们用计算机系统研究（System Research）为例子，我们会回到学术研究的常态。算力垄断并非新鲜事。20年前，最好的分布式系统——从MapReduce到GFS、BigTable——也只能诞生在Google，因为只有它有那种量级的算力和业务。学术界的价值不在于复刻大厂的规模，而在于系统性的科学训练。大厂提供的是现成的基建，你很难有机会从零构建一个系统。学术界虽然产出少，但高质量的产出远胜于“灌水”。

你必须接受一种“错位”：学术界99%的工作最终可能就是Trash，没有直接商业价值。但这正是科学精神的本质——在自由的环境下，允许Great Idea缓慢地演化出来。既然拼不过资源，就去想大厂不敢想的Idea。去做那些Interesting but meaningless、甚至看起来根本不会Work的东西。如果非要追求“大公司一定要用我的东西”，心态就很难平和。

其次，是Berkeley AMPLab模式的胜利。从Databricks到AnyScale，再到最近的vLLM、SGLang，这些改变行业的工具都诞生于Berkeley的系统实验室。学术界其实是一个更安全的创新避风港。你可以把它当成一个Startup来运作，去捕捉产业创新的空隙。这是时代给高校的机会——如果不去做那些前瞻性的、反直觉的实验，学术界就彻底失去了存在的意义。

ZP：你理想中的Multi-agent system最可能在什么场景落地？是公司里面的工作流，还是每个人都有自己的Personal Agent作为一个Social形式存在？

吴翼：首先要思考：什么时候真的需要Multi-agent？有两个情况是必须的：第一是并行化。比如一个任务，我需要大规模并行分布式处理。就像早年的MapReduce一样，我有一个任务可以拆成一万个小任务，进程里的每个进程就是个Sub-agent。第二种情况是异步。现在有三件事情，每个事情的节奏不一样，一个要去读某个API的数据，一个要给你发消息等你回复，这时候可能就需要不同的Agent去做Coordination。

如果不是这两种情况，其实核心就是——为什么不用一个Context足够长的大模型解决？所以很多之前提的Multi-agent system在这一波长上下文大模型出来后，已经被证伪了。当年大家搞Multi-agent，是因为模型能力不够强、Context不够长，你必须要拆分成不同的Role。后来发现模型变强了，一个模型直接硬推就行了。

所以在公司里的Workflow，我其实不是很看好强行拆成Multi-agent。公司是一个非常Unify的地方，你只需要一个Super smart的Centralized AI放后台做决策就行了，不需要Multi-agent，除非是特别Critical的Research task。

像Claude Code出来的这种，需要搞一堆AI去写代码、然后去Verify跑出来的结果，这是一种天然提效的工作就适合Multi-agent，以前需要一万人去尝试，现在AI可以自我Duplicate成一万份，所以它是天然的Massive parallel场景。这也就是所谓的Agent orchestration、Agent swarm等概念。

另一种就是Decentralized system。比如我有三个Claude Bot，一个放家里，一个放公司，一个放车里。或者捏三个独立Agent，一个天天帮我回微信，一个天天帮我刷小红书，一个天天帮我去知乎上刷新闻。他们干的事不一样，也应该用分布式的不同的context。在这个场景下还会产生SocialAgent的情况：比如一个Sandbox里可以两个Agent进去工作；我觉得我家的Agent答得很好，我就把我的Claude Bot送给你，去你家的sandbox工作。这是会慢慢Evolve出来的方向。如果不需要互相隔离的场景，大家都在公开的上下文中，确实不太需要Multi-agent。

ZP：RL正在成为AI走向更高级别的重要因素。但RL正在从可验证的Coding和Math，逐渐迈向一些不可验证的领域，比如Creative Writing，或者是Real-world Case。这些东西的Reward并不清晰。你觉得在Reward不清晰的情况下，它的Core Challenge在哪里？除了在Reward上硬磕，还有别的方法可以绕过这个问题吗？

吴翼：这就回到了一个底线问题——“人可验证”。如果没有Evidence，人都不可验证，如果一个问题最专业的人都判断不了好坏，不可验证，那这个问题可能就不存在科学解法，变成纯粹靠Emergence的黑盒玄学，不可控了。所以底线是至少要能让“人能Verify”。另一个对应的概念叫“自动机器可验证”，比如RLVR（RL with Verifiable Reward，比如在数学题用标准答案自动去检验计算结果对不对）。其实这是一个轴，左边是机器自动可验证，右边是人类可验证评估，，是有中间态的。比如我们收集1万条Feedback，人可能要去做10%的Calibration，看这OK不OK？

再比如你有一个Verifiable reward，模型正确率可能有90%。那我把Confidence Threshold降低一点，80%的情况模型自动处理，剩下的20%Routing给人类处理可不可以？也是可以的。通过这种人机共同feedback的模式，可以训练的范围就变大了，而且Cost其实也降了。大模型每一次post-train训练并不是要求对所有问题都能绝对泛化，只要它自己能长出一些基础模型欠缺的能力出来就可以。

核心的问题还是：你怎么构造出这样的Domain？比如你做Agentic Coding，你的Context是什么？这就需要你去构造。有些场景你是可以找人来标数据的，这并不是不能标。花点钱标数据是OK的。只是人的精力有限标不了太大的量，只要AI能够帮你大幅Reduce workload就行。所以我觉得核心还是Verifiable，并且只要大概Verifiable就行。

ZP：如果它不能变成完全自动化的话，其实“人的介入”也是可以接受的。那么这个提供反馈的“人”，必须是一个Expert，还是说一个普通的User也可以？

吴翼：那肯定是Expert。现在你会发现，其实RL并没有像推荐系统那样天然的数据飞轮（在推荐系统里，用户点赞就是天然优质反馈）。RL的数据是你拿过来之后，必须要有Expert去洗数据，丢到过于简单的数据或者太困难的数据，然后再去构造训练任务、再去训练。这本质上是Human-in-the-loop的数据飞轮。

ZP：Cursor最近做了一些比较大胆的尝试。它有个自动补全的Type Model，通过用户是否接受它的代码补全作为一个Reward，在线去更新它的RL Model。这就是面向普通的User来大规模收集Signal。你觉得这样收集的Signal，噪声会不会特别大？

吴翼：我相信Cursor肯定是在后台洗了数据的，不可能是纯粹直接无脑的OnlineRL。现在大家有一种倾向就是滥用术语，比如我把今天的数据收回来，今天晚上训练一个模型，明天部署，这能叫纯OnlineRL吗？虽然勉强也算，但其实大部分原生数据就是很Noise的，没什么用，简单补全你也不需要去专门深度学习。他肯定是洗了数据，有明确的用户反馈之后，在训练模型上不断迭代。

ZP：你觉得RL的范式算是结束了吗？在这个大模型上面，你觉得还缺少什么组件？

吴翼：这是两个问题。第一，RL范式有没有结束？我的观点是，还得再看看。因为其实Pre-train也没有结束。不管是OpenAI还是Google，在Architecture上依然有很多工作可以做，甚至预训练的方式也还在往前拓展，比如多模态的引入。RL也是一样。其实大家目前用RL来做Agent能力的后训练跑得也不是很久，Training Cost虽然重，但也没到跑一个任务一个月都跑不完的地步（预训练就经常这样）。所以继续让RLscale up肯定是有空间的。

现在Agentic Coding的任务，调试好AI之后，让AI自动跑个一天就能完成，已经很常见了。但是比如怎么训练才能让AI可以自动的没有人的干预的情况下完成“Aweekof work”？这就需要思考：我们怎么Evaluate它的能力？我们怎么设计Training Curriculum和Training Task？这里面还有很大的空间，因为大家都没想明白。即使在当前的RL范式下，我们能不能通过数据硬解？还是说我们真的需要Pre-train不动，去做架构的改变？这就见仁见智了。

如果真的有Paradigm Shift，我觉得可以从Human Effort的角度去考虑问题。我们从Pre-train到mid-train到post-train，有一个角度就是人类体力付出在持续降低。对于Pretrain来说，我们可能需要首先收集互联网上几十T的Token来做训练，这里每一个Token都是人类过去的体力劳动产生的。那么在Mid-Train，可能我们需要的人类体力产出就是几百万几千万高质量数据，这比预训练需要的人类数据就降低了几个数量级。再到用RL做post-train，人的体力输出只有task和reward，绝大部分的数据都是大模型在RL过程中自己产生的，从human efforts上看又降低了数量级。

再往后发展，人能提供的高质量有价值的数据一定会更少。训练AI就像培养顶级运动员一样，你一开始培养一个网球爱好者，让他看视频、上课就行了；然后你可能要他参赛和训练来成为职业选手；但他如果要成为ATP前十的选手，这个时候顶级教练给他的反馈是非常Subtle但又极其关键的。教练可能就是帮他做一下心理按摩，或者告诉他“你发力的技术动作只要在这个方向上改一下就可以了”，剩下的事依然是选手自己去做。

从大规模的Human介入，变成小规模的、愈发精细的Human介入。这是个必然趋势，因为人类能教给AI的东西越来越少了。有没有可能再往后，我们在考虑Intelligence的时候，就是在AI自我进化的Loop里面给一些Insightful feedback？我相信人类还是需要持续Involved的，但这种Paradigm到底具体长什么样？我还不知道。

ZP：你心中的AGI，目前有一个比较清晰的定义和想法吗？

吴翼：我说句实话，我觉得它早就AGI级别了。为什么大家觉得还不是？因为大家对AGI设定的目标永远是“移动的球门”——你目前还没有拥有的东西，才叫AGI。你回到2019年，当时大家的目标是：对于这个世界上Economic-wise的文职工作，只要80%可以被AI替代，那就差不多是AGI了。结果现在AI去做，其实Almost there。

但大家的要求变高了，门槛被拉高了。你现在要求的是一个新鲜处理的通用AI，在没有任何Domain Knowledge，没有任何Context和Prompt Design的情况下，能够自行把所有事全干了——这个要求其实算是极其离谱的苛刻。

我觉得好玩的点在于，事实上AI在Coding领域已经超级破局了，但由于普通人不写代码，所以普通人的生活中感知不到，这就产生了一个巨大的Perception Gap。

这是一个巨大的产品机会。你怎么让AGI的能力被普通人看到？现在它还是很Pro的。普通人哪知道Code是什么东西？虽然本质上整个Digital World都是被Coding构建出来的，但绝大部分人都不知道它背后靠的是什么。

ZP：你怎么看2026年Multimodal Agent和Multimodal System？这会是一个重点吗？还是说Coding Agent依然会占据主导？

吴翼：我觉得有两个点。首先，很多Intelligence在工作场景上的核心落地，其实还是Coding Capability，或者说Agent Coding。这件事情跟视觉没有太大的关系。

其次，关于所谓的Self-evolving和Continue Learning，这东西太抽象了，我们需要一个非常具象的命题：一个大模型，它可以完成多久的Task？

所谓的Self-evolving Agent，比如你让它去解决一个开放数学题，张益唐教授解决孪生素数猜想花了30年时间，那你有没有一个Agent也对一个任务跑30年的？

但现在基本最好的AI能独立做的事，还是花费精英人类Hours of efforts的任务，中间需要各种人类参与计划和调度。那下一步有没有可能做到Days of efforts？

如果你发现有一天，AI能做Weeks的工作，那它一定是Self-evolving，一定是Continue Learning的。所以这个具体的衡量标准是：Solve tasks that take weeks of effort。人类的Science做了100年，你要是能让一个Agent Run 100年，那就是Self-evolving，这个跟World Model这种抽象概念其实没太大关系，就是看时间。

回过头来回到Multimodal，我觉得它是一个新大陆。比如多模态模型甚至视频模型预训练会不会对Robotics带来全新的可能性？甚至回到大模型本身，多模态对预训练和后训练的各个环节都带来了全新的技术可能性，比如生成和理解的统一能不能直接放到预训练阶段去做？能解锁新的能力嘛？这是全新的可能性，Google大概率就是走通了这个路线。

这个可能性一旦走开，大家都会想去试一走。你看现在所有的Coding模型，它其实在大模型预训练阶段没有太大的改变，更多的是在Post-train阶段下功夫。但如果加上视觉，把生成和理解放到预训练里面去一起做，我觉得是个新的可能性。在很多非Coding的场景上，也有很多空间。比如字节跳动最近围绕多模态就有很多好的产品尝试，大家一起探索吧。

如果你追求的是AGI，那肯定还得去卷Coding；但多模态这种新的可能性一旦走通了，可能会有新的机会，也一定会有人跟上的。

04告别“成功的Researcher”，人生算法的去标签化

ZP：吴老师认为，理想中“成功的Researcher”是什么样的？或者不成功的例子也可以谈谈。

吴翼：这个问题涉及两个前提：一个是“成功”，第二个是“Researcher”。

首先，我对这两个前提有一些comment。对于Researcher，这只是我们现在的一个身份标签。这个世界的发展变化很快，在这个时代，大家的身份其实是很mix的，没有必要把一个身份的标签去跟一个人做强绑定。身份更多代表的是你过去的一段时间，大家对你的一个认知，而这个标签是动态的。

一个人从Researcher出发，最终会走向哪里，没有人知道。有时候是时代把一些机会扔给了你，所以你也不一定非要一辈子做Researcher，你完全可以走向不同的地方。至于什么叫“成功”，在过去两年的感受里，我觉得比较难回答，因为我觉得每一条路都很好。

每一条路都很好。所谓成功不成功，到底是外界的评价，还是内心的感受？我觉得无非就是你找到了自己确实喜欢的事情，然后坚持下去。现在在我看来，人最大的成功就是找到一个自己真正热爱的方向。想做的事情，可以不在乎外界的评论，只要是你真正喜欢的，就一直坚持做下去。寻找纯粹的想做的事，这对我来说是我现阶段比较重要的一个命题。

ZP：你会有Role Model吗？

吴翼：我觉得很难讲。我完全不会有“我想去过什么样的人生”的想法。或者说，我人生中肯定短暂出现过这样的阶段，在创业比较艰难的时候，我们跟人聊过，当时别人觉得人一定要找个Role Model。所以那时候我也跑去读张一鸣的微博，看《乔布斯传》和《马斯克传》。但很快这个阶段就过去了。

我想过我自己的人生。我觉得最重要的事情，不是你想去过什么样人的生活，而是多少年之后，你是不是有一件事情，不管外界发生什么样的变化，你都愿意为它坚持下一个十年。这挺难的。创业完之后，你去审视这些人，会发现他们确实有特别多启发你的地方，你会受他们的影响，或者从他们身上看到一些自己的影子。但我不会说“我想去过他们的生活”。

ZP：那你现在怎么Define自己呢？因为我们刚刚提到Researcher、老师/教授、创业者心态，或者是Manager。你觉得你现在处在一个什么状态？

吴翼：处在一个转变的阶段。从2016年到现在，差不多刚好十年，也是我敲开Pieter门之后的十年。我身上可能有很多标签，比如Researcher、老师，有些创业者也开始变成Manager。对我来说，十年已经过去了，在这个时间点，你需要去寻找自己的下一个阶段。

对我来说，在这个时代下，我更多考虑的是：下一个十年应该往哪里去？

我确实还没想好会往哪里去，只能走走看。这个时代就是Everything is new,everyone should be trying。还是得锻炼心态吧。人的心态好，一般来说有两种可能性：第一种是什么也没有经历过，第二种是经历了很多东西。我还好，我心态还没有那么好，说明我经历得还不够，马上就会经历更多。

前两天我写了篇文章，听了一首20年前的老歌，SHE的《一眼万年》。里面有句歌词很有意思：“要不是沧海桑田，真爱怎么会浮现”。

我觉得我们现在就要去经历沧海桑田。你先去经历，然后它才会出现。站在过去十年、二十年的视角去看，到底要往哪里去，其实不知道。可能你不去经历，永远也看不清楚自己想要的到底是什么。

ZP：聊到这种人生大节点的选择，有时候真的像玄学。你应该是16届毕业的吧？现在回过头看，你们当年那批毅然决然回国搞AI的，和现在这批死磕留在硅谷抢GPU的年轻人，简直就像是拿了两个完全不同的时代剧本。你们当时是真的看清了局势，还是单纯运气好？

吴翼：我本科是14届的，清华说叫0字班，比较老了。跟我同期回国的还有不少15届的，1字班。硅谷这一批顶级实验室的其实蛮多16届毕业的，2字班。其实大家就隔了一两届。其实很多事情是很随机的，会什么我们0字班1字班回国多呢？因为我们这批人找工作的时候恰好在18、19年。那时候大家中美往返的也频繁，那时候也是中国互联网发展末期，是中国经济非常好的黄金时代。

我们现在回看会说，哦，那是黄金时代的尾巴，但在当时大家只看到了中国的发展机会，同时在美国其实没有那么特别好的机会——19、20年美国虽然有OpenAI、有Google Brain，还有Waymo，但机会并没有现在这样爆发。客观讲，18年的时候，我恰好在国内实习，我能明确感觉到，在移动互联网的黄金年代，对比美国当时的现状，在国内天花板和施展空间也许更高。于是我就成了姚班第一个回国任教的人，也影响了很多我的伯克利同学。

还有一些人是因为刚好20年赶上疫情，生活不顺就更想回去了。

但如果你的毕业时间是2022年，那情况就完全不一样了。那时候找工作的时候恰逢疫情期间，中美往返断绝回不去。所以自然就留美国了。然后刚工作没多久就赶上ChatGPT和AIGC的浪潮，不管你是不是做这个的，你可能都会被卷进去。那个时代浪潮下，这是自然的。

ZP：聊聊你学生时代的问题吧，姚班有什么有意思的事？你觉得你当时那些姚班同学，现在都在干什么？？

吴翼：我是银牌，也是中国历史上不多的IOI国际银牌进的姚班。我们那一届姚班从客观上讲是比较Diverse的。我觉得我们班当时是“奇人奇葩”比较多，这里的“奇葩”是个褒义词。我们班有干记者的，有当教职的，经历各种曲折坎坷的，有去创业的，也有当网红的。

还有吴佳俊（ZP注：斯坦福大学计算机科学系助理教授，计算机视觉与具身智能领域的顶尖青年学者）也是我们班的。佳俊是个特别典型的“清华特奖”，几乎没门课程都是我们班第一。

我们班确实极其Diverse，折腾各种事情的都有。你从世俗意义上看，我们班出来的奇人异士特别多。回过头看，我反倒觉得在大学时代，能交到一些“奇怪”的朋友是件特别幸运的事。现在的同学们我总觉得同质化有点严重，大家都在卷同一种路径，很少有人敢去做一些在外人看来很奇怪的“非共识”选择了。

ZP：为什么你提到姚班、提到OpenAI，核心词都会是Diverse？

吴翼：人员背景Diverse，但在做事上，大家必须是Mission-aligned的。现在回头看，会发现这非常重要。因为在这个AI时代，如果你想去做一些Project，早已不是当年那种“我一个人有个Great Idea，跑个实验发篇Paper”就结束的作坊年代了。你需要一个小Team，大家必须目标极其一致地去推进。

现在复盘，你会觉得OpenAI那个年代的组织架构反倒是Make Sense的，而当时FAIR那种“让天才自由探索”的模式反而不太适配这个阶段。再回到2022年那个时间点，ChatGPT刚做出来的一个星期，说实话没人知道它会火。大家干了好多莫名其妙的事儿，然后它就莫名其妙火了。我觉得大家当时可能会相信“这模型好像挺厉害的”，但没有人想到它会变成今天这个样子。因为我觉得没有人能够想象出他没见过的世界，除非他是乔布斯。

ZP：你现在还会劝别人读博吗？如果学生问你“我要读博吗？”你怎么回答？

吴翼：你知道吗，中国学生的问题往往是：“吴老师，我特别想读博，我要在国内读博。”他们不会问“我要不要读博”。这跟在美国的学生感觉非常不一样。我的态度一直是，我会给出我能给的选项。比如我今年招学生，我就摊开来告诉你，做选择是你自己的事，我没法替你选。我有一个“抛硬币理论”：你要是觉得纠结，你就抛硬币。你纠结说明选项A和选项B都很好，那就抛硬币。

你敢不敢抛？大部分人是不敢抛的。你不敢抛，那就多去经历吧。希望大家都能找到真正的自己。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

清华吴翼：离开OpenAI，我有后悔过吗？

01 OpenAI曾是一个“二流班子”？

02中美RL与Agent的反思

03学术界的“无用之用”，在巨头阴影下寻找自由

04告别“成功的Researcher”，人生算法的去标签化

大 家 都 在 搜

大家都在搜