扫码打开虎嗅APP
本文来自微信公众号: Z Potentials ,作者:Z Potentials,原文标题:《Z Tech|清华吴翼:离开OpenAI,我有后悔过吗?》
作为清华“姚班”的传奇校友,他曾是IOI的银牌得主;作为OpenAI早期的核心成员,他亲历了那群被主流学界视为“神棍”的非主流天才如何用非共识打破了Google的围剿;而作为清华大学交叉信息研究院的助理教授和AReal项目负责人,他又在这个巨头林立的时代,试图在构建属于自己、不断拓展的人生算法。
本期访谈,我们有幸邀请到了吴翼老师。在这场长达两小时的深度对话中,他直接戳破了“成功的Researcher”这一虚幻标签,还原了OpenAI早期不为人知的“草台班子”文化,并对当下中美大模型产业的“蒸馏”现状与芯片市场的确定性做出了极具穿透力的预判。让我们一起走进这次关于“祛魅”与“求真”的对话!Enjoy!
ZP:那个时候你有意识到OpenAI会成为现在这么大、这么受全球关注的一家公司吗?
吴翼:我觉得不会。因为在2018年那个时间点,OpenAI是真的非常非主流。对于我们这种受过正统科班训练的人来说,你当时一看Google Brain或者Facebook AI Research,基本由知名PhD组成,全是Big name。相比之下,看一眼OpenAI,你就会觉得:“这也太草台了吧?”
当时的Facebook AI Research里坐镇的是啥人?是何恺明、Ross Girshick这种级别的;Google Brain里是Sergey Levine、Samy Bengio这种Big Name。
再回头看当时的OpenAI有谁?Ilya Sutskever(ZP注:OpenAI联合创始人、前首席科学家,主导AlexNet以及GPT以及DALLE系列模型的研发)算是一号人物。但在当时,大家多少觉得Ilya这人挺“神棍”的,天天宗教式的念叨“Compression is intelligence”。早期如果不是因为有Pieter Abbeel坐镇,OpenAI可能连科研的场子都撑不起来。正因为有Pieter把他的一帮徒弟带了过去,OpenAI才正儿八经做了三年Rigorous Research,产出了一些很好的早期RL工作。
结果2017、2018年Pieter前脚刚走,OpenAI就端上来一些看起来很“非主流”的项目,比如用AI玩Dota。
当年Dota项目的核心槽点在于——隔壁DeepMind刚攻克了围棋(AlphaGo),同时星际争霸项目AlphaStar也有很大的影响力;OpenAI作为后来者选择去搞Dota项目,有一种“刻意为了搞学术PR而做项目”的感觉。在当时的学术界看来,OpenAI并不被大家认为是个顶级的研究组织。我当时入职的时候,我们组里面,除了团队负责人Igor Mordatch,只有我是正儿八经的科班CS PhD。其他人根本都不是——有本科生,有神经科学家,来自俄罗斯英语说不利索的开源大哥,还有做Unity游戏开发的。
跳回到那个时间点,抛开现在的上帝视角,你肯定会觉得这帮人挺非主流的。
再举个例子,我当时的同事也是我的好朋友Lilian Weng(ZP注:翁荔,原OpenAI安全系统负责人,Thinking Machine Labs cofounder),她在加入OpenAI之前的履历是Stanford的Master以及Dropbox的Software Engineer。在那个年代,大家不会觉得这符合顶级AI人才的画像。跟Google Brain和FAIR的全明星阵容一比,OpenAI肯定看着像是草台班子!
但OpenAI最大的优势在于,它的Mission很统一,这和硅谷其他研究所很不一样。我印象里反差最大的是FacebookAI Research(FAIR)。我在FAIR待了一年,现在回头看,当年FAIR的问题恰恰是每个人都是Famous Researcher,所以每个人想的东西都完全不一样。所以当时在FAIR,最稀罕的反而是他们的研究工程师们——因为Researchers要找靠谱大哥来帮他们做工程开发。而工程师的编制又比Researcher少,最牛逼的工程师就特别吃香,你要去忽悠他:“你来我这儿干行不行?”
所以这是一个很神奇的状态:一边是自由探索的科学家们,另一边是统一的“PR项目”。当然不是说不应该自由探索,科学精神本就应该是自由的,只是恰好在AI这个时代,工程化和使命尤其重要。而OpenAI最大的优势在于,它把一堆‘莫名其妙’的人聚在一起,做到了极致的工程化,并坚持了下来。这件事对我触动很大,以至于后来我自己的团队也很工程化。
ZP:很多时候都是时代的机遇,非常随机。但回头看你的选择,比如带着一些运气的成分跟着Pieter Abbeel,这种职业路径让你错过了一些机遇吗?比如留在字节工作,或者留在OpenAI去拿OpenAI的早期期权,现在说不定已经财富自由了。对于这些错过,你现在会如何复盘?
吴翼:以前确实复盘过,不过现在已经看的很淡了。这里其实有两个角度:第一个角度是,很多时候你不能回头去复盘,你只能站在当下。因为人在当下是永远看不清楚未来的,你当时只能去做一个“看起来很理性、或者当下看起来比较好”的选择。我算是运气很好的,是因为时代给了我选择的机会,我才能在这里聊过去。其实清华的同学大多都会有很多机会,稍微选一选都不会太差的。能有选择的机会已经很幸运了。
第二个角度是,过多复盘并不利于探寻未来前进的路。就拿我OpenAI的经历来说吧。如果我当时多留半年拿到期权,的确会让我现在有不少钱,就有能力对很多事说no了。再比如创业,如果当时我不启动边塞科技,或者边塞科技如果坚持到2025年会不会更好呢?这是人的本能反应。但往往糟糕的事情就发生了:人回头畅享的时候,很容易心里产生杂念,叫如果我当时知道它能赚钱,我就会做出另一个选择。哪怕仅仅是一瞬间的反应,都很容易造成对未来持续的影响。这种悔不当初的念头或者对于这种念头的畏惧,恰恰就是很多人在追求学术理想和赚钱之间不断纠结拧巴的原因。所以,很多时候纠结只能说明,你并没有真正理解和接纳自己。作为研究员,我过去曾经时常给自己营造了一种“我在追求纯粹的学术理想”的幻觉,但是这真的纯粹吗?回头看其实我曾经在不少的时间里面心理还是产生了各种的杂念的,比如会想自己错过的钱。
不过我也是经历过了才能比较坦然的跟大家聊这些。正是因为你曾经做了这样或那样的选择,然后回头发现自己好像并不如自己想象的那样纯粹的时候,你才会开始真正的开始思考:自己到底想要什么?正是因为做了离开OpenAI这样的选择,做了创立边塞这样的选择,不停经历波折、产生杂念而自知,我才开始更理解自己一点。这是没办法的,人不太可能什么都不经历就能理解自己的。不过我也希望大家都能简单顺利开心点,没苦不用硬吃,没事少瞎想哈哈。
ZP:有没有哪一个工作,一开始没有被特别看好,是个反共识的事情,但后来证明是对的?或者你在OpenAI经历中,带给你最大收获的点是什么?
吴翼:OpenAI这段经历对我触动非常大。第一点,我一直都很喜欢Large Scale/Scaling的东西。当年申请PhD的时候,我Personal Statement里写的就是想做Machine Learning System。但我博士生导师对Scaling不是特别感冒,所以我读PhD时虽然做了一些偏System和Engineer的工作,但还是算法多一些,没有完全朝着极致大规模计算的方向走。到了OpenAI之后,我发现那里的氛围非常推崇Scaling,这一下就激发了我本来就想做的事情。
第二件事是激发了关于Agent和Multi-agent更开放的想法。当时在OpenAI早期,带我的领导是Igor Mordatch(ZP注:Google DeepMind资深研究科学家,OpenAI早期核心研究员。),也是我早期的一个Co-author。后来换到了Jeff Clune(英属哥伦比亚大学副教授,曾任OpenAI机器人团队研究经理、Uber AI Labs创始成员及Google DeepMind高级研究科学家),他是个和我研究风格非常不一样的人,这种合作的经历也给我带来很多启发。
ZP:Igor和Jeff分别给你带来了什么影响?
吴翼:Igor是一个非常典型的主流AI研究领域的PhD,他是拿了CMUFaculty offer然后来OpenAI的,后来又去了Google。我们一起合作做了非常好的工作,hide-and-seek这个项目的视频至今还是OpenAI YouTube历史播放最多的视频。Jeff风格就完全不一样,但是他让我发现了去看待问题的另一个世界。Jeff是做进化算法的。你会发现,在Berkeley、Stanford接受过严谨机器学习训练的科班出身的人,去看待搞进化算法的人,会觉得他们写Paper就像“神棍”——一页纸就一个公式,举一个特别Toy的例子,然后通篇都在跟你讲人类世界、自然世界是怎么运转的Philosophy
我强调一下,“神棍”这个词在这里是个中性词,更多的是指和主流机器学习数学驱动的方法论很不一致。我的领导换成Jeff Clune之后我被迫学习了很多进化算法的东西,学完发现,他当然有局限性,但其实还是有不少有趣的套路的:比如Population-based algorithm,比如他们去设计实验和展示想法的独特的甚至有点“邪门”的角度。你很难去做数学证明,但确实对我产生了很大的冲击。
科班出身的学术圈排斥进化算法是有原因的,因为它在当时确实没有产出特别Solid的结果。Rigorous Machine Learning后来成为了主流,大家习惯于用优化算法的方式考虑问题,但这不代表这是唯一的方式,也并不代表进化算法领域里没有可以借鉴的Idea。
跟Jeff Clune的合作彻底打开了我的思路,让我意识到“我靠,还可以这样想问题”。这对我后来的启发挺大的,让我的思维更加跳脱一点,不那么局限。如果不在那个地方,你可能根本接触不到Jeff,也没机会去认真的研究一下这些稀奇古怪但又很有意思的事情。
ZP:那你觉得现在跟过去相比,你更了解自己的点在哪里?比如未来的方向,学术界还是工业界,你看清楚了吗?
吴翼:我觉得学术界和工业界其实没有这么绝对。比如王鹤(ZP注:北京大学助理教授。银河通用创始人之一)老师或者唐杰老师,他们算学术界还是工业界呢?再比如大家可能比较关注的杨植麟(月之暗面创始人),他也在清华当过几年助理教授。所以这很难讲。
不需要把这个边界放得这么对立。本质上是这个时代、国家把业界的资源和机会给到了科学家,所以才会出现“在学校里的科学家或企业家”这种新物种。这是时代给的机会,宏观上不由自己决定。
对我自己而言,我可能心态更松弛一点,更能接受这个世界是怎么运转的。大家都会觉得你一定要有个Role model,觉得“吴翼你为什么不去做一番伟大的事业、做个伟大的企业?”现在我对这些问题可能就笑一笑不回答了。我个人会更松弛一点。,我觉得可能得到一个Timing,自然就知道自己想选择什么路,那个Timing目前还没到。伟大是时代的选择,不必强迫自己。
ZP:你能点评一下比如豆包、千问、DeepSeek和Kimi这些大模型目前的整体进展吗?
吴翼:我觉得豆包更像是一个很全能的产品,长期来看豆包肯定是很厉害的。因为字节的资金确实是第一梯队的,产品也一直做的很扎实。相比之下,Kimi和千问确实是用更少的钱,做出了非常高质量的工作。至于其他家,我就不好说了。但只要目标很明确:你的每一代模型都能够在特定有价值的Benchmark或能力上保持和世界最好的模型On par,只要不掉队就可以了。
国内大部分的厂商其实都在做蒸馏,比例很高。但其实蒸馏这件事要做好也不容易。因为这里面有很多资金人才和算力的问题,以及如何拿到用户反馈的问题。Claude能做好除了因为长期专注,很重要的原因是它有极强的用户反馈——几乎所有最高质量的AI Coding用户数据都流向了Claude,带来了特别显著的头部飞轮。不过另一个角度来说,这里也有机会:虽然国内大模型预训练会差一点,但因为Coding这个领域里有很多是Post-training的事情,靠蒸馏也会更容易追一些。
那就有人会说,比如“既然如此,我们就没必要做原生模型了,全靠蒸馏就好了”。我个对这种观点是不赞同的。首先,你依然需要一个Reasonable的Base模型。基础模型不好,再蒸馏也提高不上去了。然后,蒸馏也没大家想的那么容易。
除了post-train数据是难题,agentic coding场景下的任务拆分数据也并不好搞。就算有数据,你也不可能只拿开源的base模型光做SFT,那你的天花板也会很低。你想往后做泛化,还要做RL,如果你没有一个自己非常清楚数据边界的干净的base模型和很好的RL基础设施,往后做会很头疼。虽然门槛比别人低,但依然需要很强的人和团队去做。
ZP:你觉得这些靠蒸馏的公司会一直存在吗?为什么美国没有特别多这种现象?
吴翼:美国有他们的头部企业,头部企业蒸馏效果其实有限。相比国内,大家的目标是不一样的。我们核心是要首先要快速的保持能On par。我觉得这是一个非常合理的短期生存策略。一旦你不能On par,可能就完了;只要你能保持On par,就能保证持续的迭代下去,就有机会赶超。首先保持生存非常重要。
ZP:你觉得AI时代这种企业组织形式会有什么变化吗?当年OpenAI那个团队规模在那个时候可能合适,但Facebook就不一样。
吴翼:这里有两个角度:一个是新企业、新团队;另一个是老企业的团队转型。
新崛起的团队,情况是他们确实会更Native。他们需要的人更少,要的是精英集中,包袱很小,迭代速度非常快。尤其AI会放大那些最顶尖人才的状态。比如我们做AReaL(分布式Agentic RL训练框架)这种级别的项目,对于知识、技术甚至认知迭代门槛都非常高。但即使这么复杂的项目,我们团队最厉害的大哥,他已经一个月没有自己写过代码了。他的所有Pull Request都是用Claude Code跑出来的。他去理解系统瓶颈,去做创新设计,而代码维护工作就不太需要他亲自去做了。在Claude Code辅助下,整个团队所需要的人一下子就会很少,人少就会自然没有很多大团队的组织问题。
这是新企业。但我一直相信这里会带来一个新的问题,也是大家很少讨论的:老企业怎么办?
有两种方式。一种是强行的自上而下的转型。比如像Meta、像字节,有一个特别强势的、年富力强的一号位CEO,他可以直接对团队做自上而下的绩效和组织状态的重大改变。
但如果再老一点的企业呢?比如传统国企?或者历史悠久一些的企业?AI对于传统企业的介入,就没有那么简单,可能会变成一种新的类似咨询的方式。它需要自上而下的改变。这不仅是买个云服务、用个飞书就能解决的“信息化改造”,这涉及到整个组织的评估模式和组织模式的改变。这对每个一号位的要求都特别高。
ZP:研究Agent的RL,这是一个Compute-heavy的事情,可能大厂才玩得起。你对学术界如何参与这个方向有什么建议?
吴翼:我觉得可以从两个角度去看。
首先,我们用计算机系统研究(System Research)为例子,我们会回到学术研究的常态。算力垄断并非新鲜事。20年前,最好的分布式系统——从MapReduce到GFS、BigTable——也只能诞生在Google,因为只有它有那种量级的算力和业务。学术界的价值不在于复刻大厂的规模,而在于系统性的科学训练。大厂提供的是现成的基建,你很难有机会从零构建一个系统。学术界虽然产出少,但高质量的产出远胜于“灌水”。
你必须接受一种“错位”:学术界99%的工作最终可能就是Trash,没有直接商业价值。但这正是科学精神的本质——在自由的环境下,允许Great Idea缓慢地演化出来。既然拼不过资源,就去想大厂不敢想的Idea。去做那些Interesting but meaningless、甚至看起来根本不会Work的东西。如果非要追求“大公司一定要用我的东西”,心态就很难平和。
其次,是Berkeley AMPLab模式的胜利。从Databricks到AnyScale,再到最近的vLLM、SGLang,这些改变行业的工具都诞生于Berkeley的系统实验室。学术界其实是一个更安全的创新避风港。你可以把它当成一个Startup来运作,去捕捉产业创新的空隙。这是时代给高校的机会——如果不去做那些前瞻性的、反直觉的实验,学术界就彻底失去了存在的意义。
ZP:你理想中的Multi-agent system最可能在什么场景落地?是公司里面的工作流,还是每个人都有自己的Personal Agent作为一个Social形式存在?
吴翼:首先要思考:什么时候真的需要Multi-agent?有两个情况是必须的:第一是并行化。比如一个任务,我需要大规模并行分布式处理。就像早年的MapReduce一样,我有一个任务可以拆成一万个小任务,进程里的每个进程就是个Sub-agent。第二种情况是异步。现在有三件事情,每个事情的节奏不一样,一个要去读某个API的数据,一个要给你发消息等你回复,这时候可能就需要不同的Agent去做Coordination。
如果不是这两种情况,其实核心就是——为什么不用一个Context足够长的大模型解决?所以很多之前提的Multi-agent system在这一波长上下文大模型出来后,已经被证伪了。当年大家搞Multi-agent,是因为模型能力不够强、Context不够长,你必须要拆分成不同的Role。后来发现模型变强了,一个模型直接硬推就行了。
所以在公司里的Workflow,我其实不是很看好强行拆成Multi-agent。公司是一个非常Unify的地方,你只需要一个Super smart的Centralized AI放后台做决策就行了,不需要Multi-agent,除非是特别Critical的Research task。
像Claude Code出来的这种,需要搞一堆AI去写代码、然后去Verify跑出来的结果,这是一种天然提效的工作就适合Multi-agent,以前需要一万人去尝试,现在AI可以自我Duplicate成一万份,所以它是天然的Massive parallel场景。这也就是所谓的Agent orchestration、Agent swarm等概念。
另一种就是Decentralized system。比如我有三个Claude Bot,一个放家里,一个放公司,一个放车里。或者捏三个独立Agent,一个天天帮我回微信,一个天天帮我刷小红书,一个天天帮我去知乎上刷新闻。他们干的事不一样,也应该用分布式的不同的context。在这个场景下还会产生SocialAgent的情况:比如一个Sandbox里可以两个Agent进去工作;我觉得我家的Agent答得很好,我就把我的Claude Bot送给你,去你家的sandbox工作。这是会慢慢Evolve出来的方向。如果不需要互相隔离的场景,大家都在公开的上下文中,确实不太需要Multi-agent。
ZP:RL正在成为AI走向更高级别的重要因素。但RL正在从可验证的Coding和Math,逐渐迈向一些不可验证的领域,比如Creative Writing,或者是Real-world Case。这些东西的Reward并不清晰。你觉得在Reward不清晰的情况下,它的Core Challenge在哪里?除了在Reward上硬磕,还有别的方法可以绕过这个问题吗?
吴翼:这就回到了一个底线问题——“人可验证”。如果没有Evidence,人都不可验证,如果一个问题最专业的人都判断不了好坏,不可验证,那这个问题可能就不存在科学解法,变成纯粹靠Emergence的黑盒玄学,不可控了。所以底线是至少要能让“人能Verify”。另一个对应的概念叫“自动机器可验证”,比如RLVR(RL with Verifiable Reward,比如在数学题用标准答案自动去检验计算结果对不对)。其实这是一个轴,左边是机器自动可验证,右边是人类可验证评估,,是有中间态的。比如我们收集1万条Feedback,人可能要去做10%的Calibration,看这OK不OK?
再比如你有一个Verifiable reward,模型正确率可能有90%。那我把Confidence Threshold降低一点,80%的情况模型自动处理,剩下的20%Routing给人类处理可不可以?也是可以的。通过这种人机共同feedback的模式,可以训练的范围就变大了,而且Cost其实也降了。大模型每一次post-train训练并不是要求对所有问题都能绝对泛化,只要它自己能长出一些基础模型欠缺的能力出来就可以。
核心的问题还是:你怎么构造出这样的Domain?比如你做Agentic Coding,你的Context是什么?这就需要你去构造。有些场景你是可以找人来标数据的,这并不是不能标。花点钱标数据是OK的。只是人的精力有限标不了太大的量,只要AI能够帮你大幅Reduce workload就行。所以我觉得核心还是Verifiable,并且只要大概Verifiable就行。
ZP:如果它不能变成完全自动化的话,其实“人的介入”也是可以接受的。那么这个提供反馈的“人”,必须是一个Expert,还是说一个普通的User也可以?
吴翼:那肯定是Expert。现在你会发现,其实RL并没有像推荐系统那样天然的数据飞轮(在推荐系统里,用户点赞就是天然优质反馈)。RL的数据是你拿过来之后,必须要有Expert去洗数据,丢到过于简单的数据或者太困难的数据,然后再去构造训练任务、再去训练。这本质上是Human-in-the-loop的数据飞轮。
ZP:Cursor最近做了一些比较大胆的尝试。它有个自动补全的Type Model,通过用户是否接受它的代码补全作为一个Reward,在线去更新它的RL Model。这就是面向普通的User来大规模收集Signal。你觉得这样收集的Signal,噪声会不会特别大?
吴翼:我相信Cursor肯定是在后台洗了数据的,不可能是纯粹直接无脑的OnlineRL。现在大家有一种倾向就是滥用术语,比如我把今天的数据收回来,今天晚上训练一个模型,明天部署,这能叫纯OnlineRL吗?虽然勉强也算,但其实大部分原生数据就是很Noise的,没什么用,简单补全你也不需要去专门深度学习。他肯定是洗了数据,有明确的用户反馈之后,在训练模型上不断迭代。
ZP:你觉得RL的范式算是结束了吗?在这个大模型上面,你觉得还缺少什么组件?
吴翼:这是两个问题。第一,RL范式有没有结束?我的观点是,还得再看看。因为其实Pre-train也没有结束。不管是OpenAI还是Google,在Architecture上依然有很多工作可以做,甚至预训练的方式也还在往前拓展,比如多模态的引入。RL也是一样。其实大家目前用RL来做Agent能力的后训练跑得也不是很久,Training Cost虽然重,但也没到跑一个任务一个月都跑不完的地步(预训练就经常这样)。所以继续让RLscale up肯定是有空间的。
现在Agentic Coding的任务,调试好AI之后,让AI自动跑个一天就能完成,已经很常见了。但是比如怎么训练才能让AI可以自动的没有人的干预的情况下完成“Aweekof work”?这就需要思考:我们怎么Evaluate它的能力?我们怎么设计Training Curriculum和Training Task?这里面还有很大的空间,因为大家都没想明白。即使在当前的RL范式下,我们能不能通过数据硬解?还是说我们真的需要Pre-train不动,去做架构的改变?这就见仁见智了。
如果真的有Paradigm Shift,我觉得可以从Human Effort的角度去考虑问题。我们从Pre-train到mid-train到post-train,有一个角度就是人类体力付出在持续降低。对于Pretrain来说,我们可能需要首先收集互联网上几十T的Token来做训练,这里每一个Token都是人类过去的体力劳动产生的。那么在Mid-Train,可能我们需要的人类体力产出就是几百万几千万高质量数据,这比预训练需要的人类数据就降低了几个数量级。再到用RL做post-train,人的体力输出只有task和reward,绝大部分的数据都是大模型在RL过程中自己产生的,从human efforts上看又降低了数量级。
再往后发展,人能提供的高质量有价值的数据一定会更少。训练AI就像培养顶级运动员一样,你一开始培养一个网球爱好者,让他看视频、上课就行了;然后你可能要他参赛和训练来成为职业选手;但他如果要成为ATP前十的选手,这个时候顶级教练给他的反馈是非常Subtle但又极其关键的。教练可能就是帮他做一下心理按摩,或者告诉他“你发力的技术动作只要在这个方向上改一下就可以了”,剩下的事依然是选手自己去做。
从大规模的Human介入,变成小规模的、愈发精细的Human介入。这是个必然趋势,因为人类能教给AI的东西越来越少了。有没有可能再往后,我们在考虑Intelligence的时候,就是在AI自我进化的Loop里面给一些Insightful feedback?我相信人类还是需要持续Involved的,但这种Paradigm到底具体长什么样?我还不知道。
ZP:你心中的AGI,目前有一个比较清晰的定义和想法吗?
吴翼:我说句实话,我觉得它早就AGI级别了。为什么大家觉得还不是?因为大家对AGI设定的目标永远是“移动的球门”——你目前还没有拥有的东西,才叫AGI。你回到2019年,当时大家的目标是:对于这个世界上Economic-wise的文职工作,只要80%可以被AI替代,那就差不多是AGI了。结果现在AI去做,其实Almost there。
但大家的要求变高了,门槛被拉高了。你现在要求的是一个新鲜处理的通用AI,在没有任何Domain Knowledge,没有任何Context和Prompt Design的情况下,能够自行把所有事全干了——这个要求其实算是极其离谱的苛刻。
我觉得好玩的点在于,事实上AI在Coding领域已经超级破局了,但由于普通人不写代码,所以普通人的生活中感知不到,这就产生了一个巨大的Perception Gap。
这是一个巨大的产品机会。你怎么让AGI的能力被普通人看到?现在它还是很Pro的。普通人哪知道Code是什么东西?虽然本质上整个Digital World都是被Coding构建出来的,但绝大部分人都不知道它背后靠的是什么。
ZP:你怎么看2026年Multimodal Agent和Multimodal System?这会是一个重点吗?还是说Coding Agent依然会占据主导?
吴翼:我觉得有两个点。首先,很多Intelligence在工作场景上的核心落地,其实还是Coding Capability,或者说Agent Coding。这件事情跟视觉没有太大的关系。
其次,关于所谓的Self-evolving和Continue Learning,这东西太抽象了,我们需要一个非常具象的命题:一个大模型,它可以完成多久的Task?
所谓的Self-evolving Agent,比如你让它去解决一个开放数学题,张益唐教授解决孪生素数猜想花了30年时间,那你有没有一个Agent也对一个任务跑30年的?
但现在基本最好的AI能独立做的事,还是花费精英人类Hours of efforts的任务,中间需要各种人类参与计划和调度。那下一步有没有可能做到Days of efforts?
如果你发现有一天,AI能做Weeks的工作,那它一定是Self-evolving,一定是Continue Learning的。所以这个具体的衡量标准是:Solve tasks that take weeks of effort。人类的Science做了100年,你要是能让一个Agent Run 100年,那就是Self-evolving,这个跟World Model这种抽象概念其实没太大关系,就是看时间。
回过头来回到Multimodal,我觉得它是一个新大陆。比如多模态模型甚至视频模型预训练会不会对Robotics带来全新的可能性?甚至回到大模型本身,多模态对预训练和后训练的各个环节都带来了全新的技术可能性,比如生成和理解的统一能不能直接放到预训练阶段去做?能解锁新的能力嘛?这是全新的可能性,Google大概率就是走通了这个路线。
这个可能性一旦走开,大家都会想去试一走。你看现在所有的Coding模型,它其实在大模型预训练阶段没有太大的改变,更多的是在Post-train阶段下功夫。但如果加上视觉,把生成和理解放到预训练里面去一起做,我觉得是个新的可能性。在很多非Coding的场景上,也有很多空间。比如字节跳动最近围绕多模态就有很多好的产品尝试,大家一起探索吧。
如果你追求的是AGI,那肯定还得去卷Coding;但多模态这种新的可能性一旦走通了,可能会有新的机会,也一定会有人跟上的。
ZP:吴老师认为,理想中“成功的Researcher”是什么样的?或者不成功的例子也可以谈谈。
吴翼:这个问题涉及两个前提:一个是“成功”,第二个是“Researcher”。
首先,我对这两个前提有一些comment。对于Researcher,这只是我们现在的一个身份标签。这个世界的发展变化很快,在这个时代,大家的身份其实是很mix的,没有必要把一个身份的标签去跟一个人做强绑定。身份更多代表的是你过去的一段时间,大家对你的一个认知,而这个标签是动态的。
一个人从Researcher出发,最终会走向哪里,没有人知道。有时候是时代把一些机会扔给了你,所以你也不一定非要一辈子做Researcher,你完全可以走向不同的地方。至于什么叫“成功”,在过去两年的感受里,我觉得比较难回答,因为我觉得每一条路都很好。
每一条路都很好。所谓成功不成功,到底是外界的评价,还是内心的感受?我觉得无非就是你找到了自己确实喜欢的事情,然后坚持下去。现在在我看来,人最大的成功就是找到一个自己真正热爱的方向。想做的事情,可以不在乎外界的评论,只要是你真正喜欢的,就一直坚持做下去。寻找纯粹的想做的事,这对我来说是我现阶段比较重要的一个命题。
ZP:你会有Role Model吗?
吴翼:我觉得很难讲。我完全不会有“我想去过什么样的人生”的想法。或者说,我人生中肯定短暂出现过这样的阶段,在创业比较艰难的时候,我们跟人聊过,当时别人觉得人一定要找个Role Model。所以那时候我也跑去读张一鸣的微博,看《乔布斯传》和《马斯克传》。但很快这个阶段就过去了。
我想过我自己的人生。我觉得最重要的事情,不是你想去过什么样人的生活,而是多少年之后,你是不是有一件事情,不管外界发生什么样的变化,你都愿意为它坚持下一个十年。这挺难的。创业完之后,你去审视这些人,会发现他们确实有特别多启发你的地方,你会受他们的影响,或者从他们身上看到一些自己的影子。但我不会说“我想去过他们的生活”。
ZP:那你现在怎么Define自己呢?因为我们刚刚提到Researcher、老师/教授、创业者心态,或者是Manager。你觉得你现在处在一个什么状态?
吴翼:处在一个转变的阶段。从2016年到现在,差不多刚好十年,也是我敲开Pieter门之后的十年。我身上可能有很多标签,比如Researcher、老师,有些创业者也开始变成Manager。对我来说,十年已经过去了,在这个时间点,你需要去寻找自己的下一个阶段。
对我来说,在这个时代下,我更多考虑的是:下一个十年应该往哪里去?
我确实还没想好会往哪里去,只能走走看。这个时代就是Everything is new,everyone should be trying。还是得锻炼心态吧。人的心态好,一般来说有两种可能性:第一种是什么也没有经历过,第二种是经历了很多东西。我还好,我心态还没有那么好,说明我经历得还不够,马上就会经历更多。
前两天我写了篇文章,听了一首20年前的老歌,SHE的《一眼万年》。里面有句歌词很有意思:“要不是沧海桑田,真爱怎么会浮现”。
我觉得我们现在就要去经历沧海桑田。你先去经历,然后它才会出现。站在过去十年、二十年的视角去看,到底要往哪里去,其实不知道。可能你不去经历,永远也看不清楚自己想要的到底是什么。
ZP:聊到这种人生大节点的选择,有时候真的像玄学。你应该是16届毕业的吧?现在回过头看,你们当年那批毅然决然回国搞AI的,和现在这批死磕留在硅谷抢GPU的年轻人,简直就像是拿了两个完全不同的时代剧本。你们当时是真的看清了局势,还是单纯运气好?
吴翼:我本科是14届的,清华说叫0字班,比较老了。跟我同期回国的还有不少15届的,1字班。硅谷这一批顶级实验室的其实蛮多16届毕业的,2字班。其实大家就隔了一两届。其实很多事情是很随机的,会什么我们0字班1字班回国多呢?因为我们这批人找工作的时候恰好在18、19年。那时候大家中美往返的也频繁,那时候也是中国互联网发展末期,是中国经济非常好的黄金时代。
我们现在回看会说,哦,那是黄金时代的尾巴,但在当时大家只看到了中国的发展机会,同时在美国其实没有那么特别好的机会——19、20年美国虽然有OpenAI、有Google Brain,还有Waymo,但机会并没有现在这样爆发。客观讲,18年的时候,我恰好在国内实习,我能明确感觉到,在移动互联网的黄金年代,对比美国当时的现状,在国内天花板和施展空间也许更高。于是我就成了姚班第一个回国任教的人,也影响了很多我的伯克利同学。
还有一些人是因为刚好20年赶上疫情,生活不顺就更想回去了。
但如果你的毕业时间是2022年,那情况就完全不一样了。那时候找工作的时候恰逢疫情期间,中美往返断绝回不去。所以自然就留美国了。然后刚工作没多久就赶上ChatGPT和AIGC的浪潮,不管你是不是做这个的,你可能都会被卷进去。那个时代浪潮下,这是自然的。
ZP:聊聊你学生时代的问题吧,姚班有什么有意思的事?你觉得你当时那些姚班同学,现在都在干什么??
吴翼:我是银牌,也是中国历史上不多的IOI国际银牌进的姚班。我们那一届姚班从客观上讲是比较Diverse的。我觉得我们班当时是“奇人奇葩”比较多,这里的“奇葩”是个褒义词。我们班有干记者的,有当教职的,经历各种曲折坎坷的,有去创业的,也有当网红的。
还有吴佳俊(ZP注:斯坦福大学计算机科学系助理教授,计算机视觉与具身智能领域的顶尖青年学者)也是我们班的。佳俊是个特别典型的“清华特奖”,几乎没门课程都是我们班第一。
我们班确实极其Diverse,折腾各种事情的都有。你从世俗意义上看,我们班出来的奇人异士特别多。回过头看,我反倒觉得在大学时代,能交到一些“奇怪”的朋友是件特别幸运的事。现在的同学们我总觉得同质化有点严重,大家都在卷同一种路径,很少有人敢去做一些在外人看来很奇怪的“非共识”选择了。
ZP:为什么你提到姚班、提到OpenAI,核心词都会是Diverse?
吴翼:人员背景Diverse,但在做事上,大家必须是Mission-aligned的。现在回头看,会发现这非常重要。因为在这个AI时代,如果你想去做一些Project,早已不是当年那种“我一个人有个Great Idea,跑个实验发篇Paper”就结束的作坊年代了。你需要一个小Team,大家必须目标极其一致地去推进。
现在复盘,你会觉得OpenAI那个年代的组织架构反倒是Make Sense的,而当时FAIR那种“让天才自由探索”的模式反而不太适配这个阶段。再回到2022年那个时间点,ChatGPT刚做出来的一个星期,说实话没人知道它会火。大家干了好多莫名其妙的事儿,然后它就莫名其妙火了。我觉得大家当时可能会相信“这模型好像挺厉害的”,但没有人想到它会变成今天这个样子。因为我觉得没有人能够想象出他没见过的世界,除非他是乔布斯。
ZP:你现在还会劝别人读博吗?如果学生问你“我要读博吗?”你怎么回答?
吴翼:你知道吗,中国学生的问题往往是:“吴老师,我特别想读博,我要在国内读博。”他们不会问“我要不要读博”。这跟在美国的学生感觉非常不一样。我的态度一直是,我会给出我能给的选项。比如我今年招学生,我就摊开来告诉你,做选择是你自己的事,我没法替你选。我有一个“抛硬币理论”:你要是觉得纠结,你就抛硬币。你纠结说明选项A和选项B都很好,那就抛硬币。
你敢不敢抛?大部分人是不敢抛的。你不敢抛,那就多去经历吧。希望大家都能找到真正的自己。