本周的十字路口,我们和庄明浩(「屠龙之术」主播)一起,复盘2025年的AI和科技行业的大事件,以及身处其中的我们的一些记忆与感受。
这一年,我们既是目击者,见证着技术的快速迭代、产品以前所未有的方式颠覆日常;同时,我们也被卷入了一场关于未来的集体狂想,在创新的巨浪和无尽的可能性面前,时而兴奋,时而迷茫。
我们从明浩提出的年度关键词“拐点”聊起,复盘了从年初的DeepSeek R1到最近的Sora 2的各种模型大战、Manus引爆的“Agent元年”;探讨了开源生态和人才流向;并最终将目光投向资本市场——当我们该如何理解这场关乎未来的集体狂想?
微信收听播客:
小宇宙收听播客:
观看视频播客。录制于在上海AI Hacker House录制,已同步发布于视频号、小红书、B站、Youtube。
访谈全文较长(19,866字),可先参考目录:
2025:向上还是向下的“拐点之年”
“我们不知不觉地走到了很多事情的极限里面,技术也好,产品也好,钱也好。”
尝试用一个词概括2025,为什么说“拐点”一词最妙?
向上的拐点:数据中心的建设狂潮预示着2026年的爆发。
向下的拐点:泡沫何时破裂?我们是否已在不知不觉中触碰到技术和增长的极限?
大模型战场:中美技术路线的分野与共识
DeepSeek r1如何用百万美金成本,撬动了百亿美金的基建叙事?
Sam Altman重新定义“图灵时刻”:为什么AGI可能不会“翻天覆地”,而是“轻轻迈过”?
头部模型厂商的生存法则:Anthropic做深B端,xAI走野路子,微软为何被迫自研模型?
在纯Chatbot战场,战役已经打完了吗?ChatGPT 8亿周活的背后,是护城河还是增长极限?
中国厂商的共识与武器:为什么“开源”成了对抗美国AI趋势的唯一手段?
DeepSeek V3.2的发布意味着什么?为什么我们今年可能等不到V4和R2了?
AGI的另一条路:从Sora 2到世界模型
“如果视觉模型也是主桌,那它可能用另外一种方式会实现AGI。”
多模态战场为何比语言模型竞争更激烈?美图、营销视频Agent...场景和商业化路径无比清晰。
OpenAl的产品心法:为什么是Sora 2走入了千家万户,而不是技术同样领先的其他产品?
这个世界真的不需要一个“AI抖音”吗?或许OpenAl的目的根本不是做抖音。
Google回来了!世界模型Genie会是通向AGI的另一条路,甚至是“世界的子宫”吗?
Agent元年,然后呢?
为什么Agent将在L3阶段停留很久?因为它第一次将AI能力从“语言”延伸到了“行为”。
Manus的历史意义:它让用户第一次知道了Agent该长什么样,心智定义价值千金。
Agent创业公司如何活下去?当通用Agent成为巨头显学,垂直领域的法律、金融、营销反而异常繁荣
注意力经济的挤压效应:当主流赛道挤满人,为什么连“AI动态漫”这种天花板有限的赛道都能拿到钱?
为什么说真正的“手机助理”,Siri做不到,但今天的端侧Agent可以?
鸿蒙HMAF框架的启示:当OS不再自己做一切,而是将意图下发给APP的原生Agent,会为开发者带来什么新机会?
开源:中国特色的生态
从“头部模型一定是闭源”到“2026年开源模型会登顶”,Sam Altman的观点为何发生转变?
开源如何商业化?DeepSeek的API照样卖钱,且成本比OpenAI低几十倍。
开源如何成为一种“武器”?在争夺欧洲、东南亚、中东等中间地带时,开源天然地拥有信任优势。
本地部署的需求有多旺盛?一款内存和显存超大的笔记本电脑,因为适合本地部署大模型而被迅速抢购一空。
开发者有哪些新的“生态位”可以抢占?鸿蒙开发者凭借数款小应用月入7万。
二级市场狂热,一级市场呢?
“当年大家认为AI是一个技术、一个产业,今天AI就是市场本身。”
Sam Altman的“终局思维”:当一家公司试图将未来五年的增长预期全部打包,会发生什么?
另一面,中国创投圈“我们太过熟悉的移动互联网增长叙事,在今天不能复制。”
投资人如何寻找信心?当AI纯软件的故事讲不通时,大家开始集体投向大疆、石头、追觅背景的硬件创始人。
与互联网泡沫的终极拷问:光纤可以为未来铺路,但三年就会过时的显卡呢?
有趣的信号:除了英伟达,今年标普500涨得最好的竟是希捷和西部数据这两家硬盘公司。
泡沫警报:当AI巨头开始依赖债务融资,令人想起“次贷危机”的幽灵是否正在靠近?
2025:向上还是向下的「拐点之年」
Koji
本周的「十字路口」,嘉宾是老朋友庄明浩。今天我们会和明浩一起复盘2025年的科技大事件,以及AI的一些时代回忆,也会聊聊我们身处其中的感受。
说实话,在准备这一期播客的时候,我的感受其实就是一个字——快。无论是技术迭代、产品更新,还是全球格局的变化,都感觉2025年像是按下了八倍速。去年大家常说「AI一年,人间十年」,这句话虽然现在少有人提,但这种感受依然存在。
明浩一直在记录这个时代,一直在做PPT,我自己给他起了个外号——「AI时代的司马迁」。我们第一个问题就是想问问这位「司马迁」:你觉得未来的人们会如何聊起这一年?这会是泡沫之年、转折之年,还是别的关键词?
庄明浩
我想到一个非常贴切的词——拐点。拐点的好处是它既可以向上拐,也可以向下拐。
如果向上拐,比如最近大家讨论的数据中心建设问题,按照预期,2026年就是要爆的那一年,这是向上拐的可能性。但也有另一种探讨:泡沫会不会破裂?如果真的进入破裂状态,可能在2025年底就会往下走。到了年底,你会发现我们不知不觉走到了很多事情的极限里——无论是技术、产品、资本,还是更大的层面。可以说,AI已经走到了人类的一个极限。
大模型战场:中美技术路线的分野与共识
Koji
我们今天会分几个部分来复盘2025,因为这一年发生的事情太多,不可能全部覆盖,所以很多内容会带上我们自己的感受。也许有些事件对我们个人冲击更大,但也可能有人会觉得,「这么大的事你们竟然没提到」。这在所难免。
我们先聊大模型、多模态和Agent。今年年初的一个特别大事件就是DeepSeek发布了R1。当时几乎是山呼海啸般的全球刷屏。直到今天,我仍然觉得它对我们的生活和工作都产生了巨大影响。
现在回过头来看,明浩你怎么看R1?它的意义在哪里?
庄明浩
R1正式发布时间我没记错的话是一月二十几号,就在春节假期前两天。当时中国最受关注的人是冯骥——《黑神话:悟空》的创始人。他发了一条微博,说这可能是「国运级别的代表」,引发了新一轮的讨论。那几天,美国几乎所有主流财经科技媒体都在报道DeepSeek。
与此同时,美国已经开始建立关于新一轮AI的基础设施投资叙事,新闻上频繁出现「十亿美金、百亿美金」的体量。而DeepSeek R1的论文中提到,它最后一次训练成本只有约百万美元量级。这种强烈的对比引发了大量讨论。
从投资角度看,当时美国的「七姐妹」以及NVIDIA的股价都有巨大跌幅,因为大家开始怀疑原有的叙事——似乎有别的方式可以解决问题。当然,在那之后又出现新的趋势。就像当年的煤炭行业一样,更多的资源开采带来了更多机会。虽然会有短期震荡,但长期增长依旧存在。直到今天,这个叙事仍在延续。
从DeepSeek R1开始,我们看到了中美在大模型领域的竞争——包括技术路线、开源与闭源之争,以及产品落地的规模问题。
业内常用从L1到L5的实施路径:L1是大家熟悉的Chatbot,L2是推理。O1模型在2024年9月发布,当时各大头部厂商都在复现R1或O1。O1是推理模型的代表,而在R1发布后两三个月,也就是2025年一季度,几乎所有头部厂商都推出了自己的推理模型。直到今天,各家仍在更新Base Model和推理模型。
所以如果我们在2025年底回头看,R1基本确定了这一年的竞争路径。后面的事情更多是工程优化和改进。
Ronghui
你还关注哪些模型的更新?
庄明浩
那一轮破圈的当然还有生成图片的GPT-4o模型,但它也引发了版权等问题,和今天Sora 2遭遇的情况很像。如果只看OpenAI的技术路线,2024年时大家对GPT-5抱有极高期待,认为它会是跨越AGI临界点的里程碑。但今年我们等到了GPT-5,却发现它并没有达到那种预期。
我前几天听Sam Altman在a16z播客上说,我们经历的很多变化可能不会再像以前那样剧烈。哪怕GPT-3.5出现ChatGPT时,某种意义上已经跨越了图灵测试,但现实并没有「翻天覆地」。两年多过去,我们只是轻轻地迈过去,然后继续往前走。
现在我们也很难界定AGI到底是什么。从2022年11月ChatGPT发布到现在两年半、快三年,悲观点讲其实整体还是在线性轨道上前进。今年各家厂商的模型也在持续更新。Google的进展非常快——无论是Gemini系列还是Veo 3等视觉模型,都表现强势。
Koji
我们最近还写了一篇公众号文章, 讲为什么Google又「回来了」 。
庄明浩
对,Claude也一直在坚定做自己的事,尤其在2025年更有节奏感。从市场经济角度看,它是创意公司里的第二名,第二名就必须和第一名有所区隔。虽然底层模型差距不大,但在场景选择上,Claude越来越清晰,重点聚焦在toB、Coding等场景上。它的增长曲线甚至比OpenAI还快,当然体量更小。
今年xAI的Grok系列更新也有特色,比如和X(原Twitter)的合作,以及虚拟陪伴类应用。
Koji
包括现在Sora 2出来之后,X他们也很快推出自己的视频模型,而且路线很「野」。因为它几乎可以生成任何人的照片,完全不尊重隐私。
庄明浩
而且甚至可以在提示词里写「Spicy」,要「辣一点」。
对。这背后其实不仅是技术问题,也是商业问题。微软在8月底发布了自己的模型。由于和OpenAI的复杂关系,微软不得不自己做模型。这大概是美国几家核心厂商的格局——OpenAI、Google、Anthropic、xAI,还有Meta。Meta今年声音不多,主要在疯狂招聘。
Koji
Meta的声音全是「出大支票在招人」。
庄明浩
那中国这边呢?原来的「六小龙」格局其实已经结束了。现在的共识是:开源。
开源生态的建立,可能是中国在寻找不同于美国AI发展路径时的唯一手段。开源最头部的两家是DeepSeek和通义千问,这两家几乎并驾齐驱,增长迅猛。
今年DeepSeek V3.2是一个重要标志。它意味着我们今年可能等不到V4。DeepSeek V3是去年年底发布的基础模型,之后通过强化学习得到R1,V3.1持续更新后,大家以为下一个会是V4,但结果出了V3.2。于是大家推测,今年可能等不到R2。
而千问的故事则与阿里整体的AI战略紧密相连,涉及开发投入、语言模型、多模态和编程等全面覆盖。此外,Kimi和智谱也调整了策略,分别发布了Kimi K2和GLM 4.5/4.6,在Coding、Agent、开源领域都有新探索。
欧洲那边还有一家叫Mistral的公司,在自然语言模型领域表现突出。这些构成了当下主流的大模型格局。当然,这里我们还没展开多模态、Coding和Agent的部分。
Ronghui
那你回头看,你觉得十年之后,今年有什么东西会被记住?
庄明浩
我觉得R1肯定会被记住,推动模型的这个节点肯定会被记住,Agent的代表也会被记住。多模态方面,如果只选一个,我认为会是Google的Veo 3,它是第一个从无声视频走到有声视频的模型,这是一个巨大的跨越。
如果再往后看,今年世界模型的发展也在加速,参与的厂商越来越多。目前它还处于偏Demo阶段,还没有到更值得深入探讨的阶段。但如果硬要预判,可能2025年底或2026年初会迎来一个重要节点。
Koji
对,其实就像Sam提到的,最近的发布多是渐进式的改动。很多更新,尤其是大语言模型的更新,已经让大家不再那么兴奋了。在这样的背景下,如果现在又出现一个「世界第一」的模型,明浩,你会怎么看?
庄明浩
首先要看它在哪个榜单上拿到「世界第一」。现在有几个不同的评判体系:有盲测、有打分、有题库测试等。在不同的标准下结果不同。所以确实,现在无论对大众还是从业者而言,拿下一个所谓的第一或SOTA,刺激性已经非常有限。这类新闻更多是「向上管理」。
今年语音模型的竞争也异常激烈,我们自己也在做语音业务,能感受到这种程度。语音原本是一个偏边缘的战场,但它的好处是投入量级小。对一些刚进入战场、想建立声望或影响力的厂商来说,语音是一个性价比高的选择。除了语音场景本身越来越多,性价比也是关键考量。所以今年回看各家PR的好文章,语音厂商往往不是最大玩家,但他们仍然将AI视为重要战略。
他们内部通常设有类似AI Lab的部门,虽然成立较晚,但公司愿意投入。为了证明部门存在的意义,就必须在短期内找到突破口,而语音领域看起来正是那个机会。
Ronghui
现在技术领先的窗口期越来越短。大家都说,今年AI厂商十一假期都没过好。在你看来,现在用户选择付费Chatbot的意愿主要来自哪里?
庄明浩
这取决于使用习惯、付费意愿以及对品牌的认知。这一年大家不断强调上下文记忆长度的提升,这些积累是否能形成飞轮效应?我认为已经开始发挥作用。
回到纯Chatbot战场,实质上这场战役已经结束,ChatGPT赢了。即便过去两个季度Google Gemini增长不错,也只是从零点几个百分点涨到几个百分点。ChatGPT的用户占据了大部分市场,它公布的最新周活跃用户是8亿。如果看Sam公布的数据曲线,会发现增长非常惊人。大约一年前,这个数字只有几亿,不到一年翻倍。
今年年初,媒体记者问Sam:你是更想要最顶尖的AGI技术,还是10亿用户的平台?他回答「都想要」,但显然更偏后者。我们可以看到,很多事情都触碰到了极限。用户量已经到了天花板,融资等环节也都遇到瓶颈。纯Chatbot战场上,ChatGPT已建立强大的品牌认知,并且在不断加强记忆和理解能力。
我看到一篇文章写得很好:OpenAI正在做的是当年Meta和Google没做到,但微信做到的「大一统」。在中国,我们称之为「All in One」策略。这次OpenAI发布会上,Sam介绍ChatGPT时提到,它可以直接在对话框中调用Spotify、Zillow(房产信息)、Canva(设计)、Figma(UI设计)等服务,这其实就是一种「小程序」体系。
从产品角度看,OpenAI并未放弃成为「All in One」平台的可能。
Koji
我觉得这背后还是Sam Altman和Anthropic的Dario Amodei背景不同所带来的差异。最终体现在战略选择和核心竞争力上,OpenAI仍然是一家非常有产品力和战略力的公司。
最近大家都在讨论Sora 2,但其实很多人已经忘了四周前刚发布的ChatGPT Pulse。Pulse是一个在增强用户粘性上的重要产品,它让记忆功能被更好利用,帮助用户从周活跃(WAU)向日活跃(DAU)转化。从产品实现上看,Pulse表现非常自然流畅。
这也解释了为什么现在二级市场上「OpenAI点哪,股价涨哪」。背后反映出一个问题:为什么是OpenAI,而不是Google或Anthropic?这其中仍然体现了Sam Altman的战略判断力和舆论营造能力。他非常擅长将这些能力转化为公司优势。
当然,这种「一荣俱荣、一损俱损」的模式,也意味着未来泡沫可能会破灭。但如果真有那一天,OpenAI也很可能是最后留下的那一个。
庄明浩
很多人忘了,Sam原本是个投资人。前段时间他上a16z播客时也提到,自己不擅长管理,更擅长投资。在OpenAI内部,他其实也像是在做投资:扶持、孵化、支持有潜力的团队,让他们成长壮大。这与早期投资非常相似。
Sam原来是Y Combinator(YC)的合伙人,不是传统美元基金那种VC,比如Benchmark或Sequoia。他是YC的合伙人。在掌管OpenAI之前,他最出名的是在YC的创业课。我大学学的是技术经济与管理,也叫创业管理。我曾建议导师让研究生第一课直接看Sam在YC的课程视频,那已经是创业教育的顶点。只是如今很多人都忘了这件事。
我们从DeepSeek R1聊起,现在回头再看R1。当时有个评价说「中国人很会花小钱办大事」。R1发布时,Sam Altman因刚签了一个巨大的合同——「星际之门计划」(Stargate Project)——被不少人嘲讽。那个合同金额是5000亿美元。
大家当时都说:「你看,DeepSeek就干出来了。美国人只会烧钱。」这也是当时OpenAI股价下跌的重要原因。但回头看,几个月甚至大半年过去了,现在你觉得「花小钱办大事」这个逻辑还成立吗?美国似乎仍在疯狂「氪金」,而且越来越多。
庄明浩
虽然我不是搞技术的,但从过去几年的发展来看,大模型的研发越来越偏向工程问题。它的关键在于取舍和策略选择,而不是0到1的突破。在这种情况下,美国的方式是「氪金堆叠」,中国则更多通过「弯道超车」或「取巧」的方式推进。但两条路线正在逐渐融合。我们这边找到新方法,那边会学习;那边通过堆钱取得突破,我们也会尝试。随着尝试增多,成本自然也在上升。
过去一年DeepSeek虽然不太对外表达,但你看像千问的逻辑,已经更接近美国那套思路。吴妈(吴泳铭)讲的更多是CAPEX(资本性支出,Capital Expenditure)的投入。虽然千问也有一些「奇技淫巧」,但总体叙事融合了两种逻辑。谁对谁错?没有绝对答案,彼此学习、模仿、演进。
不过有一点明确:算法、数据、算力三者中,只有算力可以靠堆钱解决。算法尤其难,数据次之。
Koji
还有人才,是可以靠堆钱吸引的。
庄明浩
有人说,没有哪家公司是因为给天才员工开高薪而破产的。我们不知不觉在很多事情上走到极限后,会发现,也许有别的方式可以用更少的钱做到一样的事。
扎克伯格已经认识到这一点。Meta每年投入几百亿美元,这场「军备竞赛」可能还会持续几年。虽然他们现金充裕,但即使把硅谷的人才都挖光,也无法只靠砸钱取胜。
所以他的策略转变是有原因的。比如Mira Murati在Thinking Machine的联合创始人直接去了Meta。那家公司估值已达120亿美元,他至少持有10%,身价十几亿美元。而Sam给出的报价是35亿美元,显然更高。
Koji
太夸张了。后面我们也会再聊聊中美之间的竞争。我觉得美国现在在这方面投入的资金确实更多。
庄明浩
上个季度,广密和小珺的对谈里提到得很清楚:美国的金融资本加上犹太人的金融智慧,再加上华人的工程师,是这轮AI浪潮的最大代表。这两者绑在一起,就能解释当下AI行业的所有现象。至少在美国,一切都显而易见。
AGI的另一条路:从Sora 2到世界模型
Koji
我们刚才聊了大语言模型,现在想谈谈多模态这个战场。今年Google先发布了Veo 3,随后OpenAI推出了Sora 2,在模型进展和产品化两个方向上都取得了令人振奋的突破。与此同时,几乎所有有实力的厂商都在投入这一领域。
我比较想讨论的是,在如此红海的激烈、同质化的竞争中,决定胜负的关键因素究竟是什么?
庄明浩
现在谈多模态,其实图片和视频已经无法分开。而在这个战场上,中美之间的竞争比纯语言模型更激烈。中国厂商在这一阶段展现出非常强的能力。像抖音、快手,以及一些初创公司如Vidu、PixVerse,都在这一板块上形成了齐头并进的态势。比如Veo 3刚推出声画同步功能,不到三个月,可灵和字节的模型就跟上了。只要方向被定义清楚,无论是产品边界还是技术路线,中美双方都会迅速跟进。
当Sora 2发布后,大家立即开始讨论国产同类产品何时出现,大概两个月就能看到雏形。由于这一板块的落地场景非常明确,它会第一时间渗透到产业链中。语言模型还需要面对法律、金融、HR等复杂的行业验证,而图像和视频的应用则更直接、更具商业化潜力。看看美图过去一年的股价就能感受到这一趋势。如今大量公司都在做视频营销的AI Agent,这些场景已经非常成熟,不再需要额外论证。一旦模型的可控性或成本到达某个节点,就能立刻形成渗透和扩散。
从整体来看,这已经是一场体系化的竞争。中美在资源禀赋上也存在差异。中国的短视频生态极其丰富,从电商、营销到工具化的结合都更紧密。这轮关于图像与视频的工具化迭代,也延续了移动互联网时代的逻辑。回想App Store上线那天起,摄影类App一直是竞争最激烈的品类,连续多年都有摄影相关App入选年度最佳。
Koji
对,而且永远会有新的App出现。
庄明浩
是的,直到今天还在打。也正因为这个赛道的刚性需求极强,场景又多,所以厂商真正的挑战在于「到底要做什么」。技术演进本身确实存在难度,但更关键的是如何落地。是做toB还是toC?
在Sora 2出现之后,一些人认为它像是「AI抖音」,但也有人从正面解读——它其实是在用当下大众已经熟悉的交互形态,让AI加成成为一种自然体验。OpenAI用看似简单的实现路径,在短时间内打包出一个边界清晰的产品,这其实非常难。加功能容易,但在合适的边界内取舍、打磨、包装,这对产品经理的洞察力、用户理解和交互设计能力都是极高要求。
Koji
确实如此,非常佩服OpenAI。其实做到这种模型能力的公司不止他们。比如我们刚才没有提到的MiniMax,他们在半年前推出了「海螺视频模型」,当时有个非常出圈的爆款——小猫们去参加奥林匹克的跳水运动,体操动作的还原度世界领先。但那么多厂商做出了顶级视频模型后,真正让AI模型走进千家万户的,只有Sora 2。它让AI彻底走出了圈内。
庄明浩
是的,不过也有人认为,这部分是因为它出自OpenAI。其实一些第三方厂商早就做过类似尝试,可能更多在图像领域,而非视频。但因为他们不是OpenAI,也不是头部公司,所以得不到同等关注。
之前多模态领域的「六小龙」之一「阶跃」,除了做模型项目外,还开发了一个图片社区叫「狸谱」。这个团队后来虽然解散了,但早期的数据表现其实不错——留存、活跃度都不差。只是因为各种原因没能继续下去,这并不代表当时没人尝试,只是那个时期人们的乐观程度还不够。现在Sora 2出现后,这个乐观值可能从三十分升到了六十分。
Koji
对,当时像「捏TA」「狸谱」这些项目都还停留在二次元圈层,并没有真正泛化。大家一方面看不太懂,另一方面也觉得天花板有限。
庄明浩
没错。所以当Sora 2出现后,我的评价其实很简单。很多媒体标题都是「我们真的需要一个AI抖音吗?」我认为这个问题没错。我们已经有一个成熟的抖音体系,从内容、生态、留存、交互到商业化,它已经无比完善,世界上确实不需要再有一个「AI版抖音」。
但对OpenAI来说,Sora 2是必要的。它需要一个独立产品,把技术真正产品化,并以合适的边界落地。这不仅是技术问题,更是组织机制和产品体系的建设。它需要一整套从技术到产品的运转流程——SOP、组织架构、团队协作,这些才是对OpenAI真正重要的。
Koji
我看到那篇文章标题写着「这个世界不再需要一个AI抖音」的时候,我第一反应就是,其实OpenAI根本没打算做AI抖音吧?这个命题本身就是外界强加给它的。
庄明浩
那天Sam提到,OpenAI正在变得越来越复杂。它现在内部其实像是三四家公司并行存在:一家是产品公司,一家是技术实验室,一家是技术基础设施公司,还有可能正在孵化的硬件相关业务。它已经不是原来那种单纯的创业公司了,如今估值5000亿美金,至少有四个清晰的实体,以及潜在的新业务。最近Sam在忙的正是那家基础设施公司,它现在的能力足以满足OpenAI自身的需求,但如果真投入上万亿美金,这家公司的能力甚至可能溢出,支撑其他企业。
Ronghui
你们有没有看到那天OpenAI发布会之后,X上很多知名公司都在晒他们收到的那枚像奖章一样的纪念徽章?像Figma等公司都在发帖炫耀。
Koji
对,就是「使用了多少Token」的那个徽章。他们真的太会做营销了。还记得去年我们本来想做一期节目,聊Sam Altman被骂是「营销狗」的时候,我们其实就想讨论——如何向Sam Altman学营销。
Ronghui
我觉得Sora 2的视频本身就是一次极有分寸的传播尝试。它既不越界,也不花哨,但充分利用了公司已有的传播资源。尤其是以创始人作为IP,这点很像Elon Musk——你们随便怎么恶搞我无所谓。
庄明浩
对,他想得很清楚。
Ronghui
而且这种方式强化了品牌绑定。每一次用户与Sam或OpenAI的互动,都会加深他们之间的情感连接。
Koji
是的,聊到这里我们已经谈了很久OpenAI。其实不知不觉间,这个世界依然在被它影响。无论外界经历多少质疑、争议或短暂的悲观情绪,仍然不得不佩服他们的节奏感和创造力。
不过我也想聊聊Google。今年,Alice他们的播客也做了一个同题选题,讲的是「Google DeepMind的触底反弹」。他们采访了DeepMind的高管,提到无论是Nano Banana还是Veo 3,Google的回归信号都很明显。尤其是世界模型的部分——他们发布了Genie,我当时看到真的有种「全身通电」的感觉,太厉害了。只是Genie离商业化还有点远,所以后续的讨论不多。但我很想听听明浩,你怎么看这条世界模型的路线?
庄明浩
这个问题如果往前推一点,其实已经接近哲学层面。自从自然语言模型出现后,很多科技人甚至哲学家都认为,当机器掌握语言这一人类独有能力时,超级智能就来了。这是一类观点。
语言模型的底层逻辑认为,语言是人类文明的核心结构,一切智慧与创造都建立其上。可随后出现了一个分支——Coding。有人认为编程语言只是语言的子集,也有人认为它是通往新世界的独立入口。
再往后是多模态。大家发现语言再强,也无法完整表达感官世界——尤其是视觉。于是多模态模型从语音、图像、视频、3D,再到今天的视觉模型,逐渐汇合为我们所说的「世界模型」。
DeepMind的高管在采访中提到,他们认为世界模型是通向AGI的另一条主路径。如果用「打德州扑克」的比喻,语言模型是一桌主局,而世界模型是另一桌主局。DeepMind把世界模型形容为「世界的子宫」——一个能自洽运行的生成系统。如果这个系统能够在现实物理规则下生成世界,并且生成速度快于人类想象的速度,那它就真正孕育出一种新的智能形态。
当然,这是一种极度理想化的技术愿景,但DeepMind一直在朝这个方向努力。其实在语言模型爆发之前,他们就在做这件事。
Koji
对,他们始终在做引领式创新。
庄明浩
没错,李飞飞也是同样的逻辑。她的创业公司也在做世界模型。所以很多人认为,如果世界模型真能成为另一条主路径,那它有可能以不同的方式实现AGI。从长期看,这种理想状态确实令人震撼。
上一代AI公司主要解决视觉问题,而视觉本身的商业场景(图片、视频等)已经巨大到无需再开辟新领域。因此,当世界模型与游戏、视频等现有场景结合时,几乎可以瞬间嵌入应用链条。只是目前技术尚未达到临界点——还没有迎来类似GPT-3.5那样的爆发时刻。
世界模型的难度甚至可能超过语言模型。
Koji
除了DeepMind和李飞飞的World Lab,国内有谁在做世界模型吗?
庄明浩
腾讯混元在做。他们最近刚发布了0.1版本,还非常早期,只能把一张照片转化为可互动的3D形态。画面质量和像素清晰度都还很初级。不过逻辑是一致的:图片和视频的竞争已经白热化,而3D和世界模型的空间还很大。这块的主力玩家会是游戏公司,因为它们有天然的需求场景。
Agent元年,然后呢?
Koji
那天我听到一个数据挺有意思的。拓竹现在有自己的平台,用户可以在上面生成3D模型并打印出来,他们能调用混元、Mast以及其他多家模型,目前在混元和Mast上的调用量都排在头部。
他们的主要客户一类是游戏公司,另一类是3D打印用户。可见多模态创业仍然是一个非常热门的赛道。今年我们也看到像Higgsfield这样的公司出现,Hix AI的创始人也还做了Pollo AI,他们的数据和收入都增长很快。
前段时间我和红杉投的一家公司聊过,他们刚上线一个视频工具产品。我问他们差异化是什么,因为前面已经有很多类似的产品,比如VEED等,他回答说差异化没那么重要,这个市场太大了。
他举了个例子:TikTok全球每天新增100万用户,其中12%的人会点中间那个加号,也就是每天大约有12万新的视频创作者,无论他们多草根,都需要视频工具。目前在视频工具领域,ARR超过2,000万美金的公司已经有20家,很多我们都没听过,可能只解决某个具体问题,或者聚焦在某个国家。可见多模态依旧是一个非常有潜力的领域。
在复盘2025时,除了DeepSeek R1,我们不得不提到另一个属于所有中国人的记忆——Manus的发布。「Agent」成为了年度关键词。 十字路口今年的开年播客题目就是「Agent元年」 ,那期我们和雨森聊时还挺冒险的,因为如果这一年不算元年,我们就要被「打脸」。但还好,Agent的发展确实如预期。
如今讨论也越来越多,比如:Agent应该是通用的还是垂直的?ChatGPT会不会吃掉所有Agent公司?这些问题都很典型。想听听明浩你怎么看。
庄明浩
我还是从L1到L5的模型分级讲起。L3对应的是Agent。当所有人都实现了L2,也就是具备了形成语言理解和生成的能力后,下一步自然就会走向L3。L1到L2解决的还是语言问题,但L3开始涉及「行为」——不只是对话,而是让模型真正去执行任务。无论是在计算机、网页还是数据库中,它都需要「行动」。这让事情变得更复杂。
所以尽管我们称今年是Agent元年,但它可能会持续很多年,就像VR或自动驾驶一样,未来五年可能都还在「Agent元年」阶段。
因为Agent虽然是一个阶段性节点,但内部还有许多层级与细分阶段,不同层级对应不同的体验与需求。我们也因此看到新的分化——通用Agent与垂直Agent各有路径。某些垂直场景可能更容易实现理想化的Agent落地。
Agent的出现给了非模型公司一个全新的落地范式。以前,想在AI领域创业的人面对模型厂商的垄断往往无从下手,只能「套壳」。套壳并非贬义,而是因为他们能做的太有限。但今天,Agent的生态正快速扩大,复杂且多样。如果类比互联网早期阶段,如今的Agent领域连「协议」都还未标准化。大公司们都在争夺协议制定权——无论是Claude、Google还是OpenAI。
一旦某种事实标准形成,协议就会确立。接着,当从语言走向行为时,我们需要搭建大量「脚手架」(Infra)以兼容现有的互联网体系。问题在于:是继续用浏览器,还是走纯API?是构建在旧系统上,还是重建一套?这些选择决定了公司间的差异。
于是就出现了各种不同类型的公司:做协议层的、做Infra实施工具的、做底层基础设施的,甚至还有专注记忆系统的。整个生态因为这一转向而极度庞杂。
Koji
说到memory infra,这确实是个关键点。 我们之前采访MeMU时 就注意到,围绕「记忆」的Infra已经多到让人眼花缭乱。我后来又和MemoBase的创始人聊了一次,他帮我梳理了整个技术图谱。听完我才意识到,不同公司走的路线完全不同。他说现在根本没有统一的技术标准,每个人都在用自己的方法。
庄明浩
我们自己也在做相关的探索。因为我们的主业是社交,而在AI社交中,记忆系统极其重要——无论是个体记忆,还是人与人之间的互动记忆。
我们的技术负责人对此一直很头疼:到底要自研,还是用开源方案,或者选择成熟的API厂商?连这个选择都难以下定论。
Koji
答案还在风中飘。
庄明浩
是的,目前确实没有标准。
Koji
赵纯想前段时间在我们北京场的AI开放麦上来分享过,当时也在十字路口讲了10分钟。他的主题是一个新项目——一个IM产品。但那次分享的重点并不是这个IM,而是他为了这个IM自研的记忆系统。因为他认为市面上现有的记忆系统都不够好,要么不稳定,要么不适配他的场景,所以决定自己做。
庄明浩
是的,这只是「memory」这一项。我记得前段时间蚂蚁开源曾发过一张巨大的生态图,涵盖了Agent框架、Agent Memory、Agent Infra等板块。这一年来,整个开源生态中涨得最快的几个方向,几乎都和这些模块相关。
因为大家确实已经走到这一步了——要把Agent做起来,就必须解决这些底层问题。现在很多创业者都面临同样的困境:生态太新,没有成熟的标准和工具,最后只能自己搭。这就像一座冰山,我们看到的只是上面那一小块「Agent」的形态,而下面那一整块巨大的系统支撑才是真正的难点。
Koji
也只有在这样的混沌期,创业公司才有可能建立属于自己的独特竞争优势。
说到这,我有个好奇的问题。你们有没有这种感觉——OpenAI虽然也在谈Agent,但他们后期表现得非常克制。
庄明浩
我觉得是因为在他们的决策体系中,Agent不是最优先级的方向。他们还是更接近传统互联网产品经理的思路,关注「需求实现」和「产品形态」。而如今大家谈的Agent,在一定程度上被狭义化了——比如它的交互方式、输出结果、按钮样式、UI设计等,几乎被过去一年的想象框住了。
OpenAI也在做调整,比如推出自己的Agent,把原来的Operator改成了现在的形态,又做了Deep Search的融合。其实他们一开始也没完全想清楚Agent应该长什么样,但从3月份Manus发布之后,这个雏形就逐渐清晰了。
我觉得Manus最大的意义在于,它让用户第一次「看到」了一个Agent应该是什么样的产品。不管是交互逻辑、界面设计,还是整体体验,它都提供了一个具象的参考。
Koji
在这个阶段,占据「心智代名词」的红利非常大。所以Manus能做到最近公布9,000万美金的ARR,其实并不意外。当然,后来很多人也调侃,说自己三天就能复刻一个Manus。但不可否认,一个真正成功的产品绝不仅靠技术本身,它更是一种综合能力的体现——包括时机、细节打磨,以及品牌塑造。
庄明浩
对,这就又回到那个问题——Chatbot的品牌之战其实已经结束了,但Agent的品牌之战还在进行。只是Manus占了一个很强的先机,而且占得很稳。
Ronghui
其实夏天的时候,很多人都说Agent有点凉了。你有这种感觉吗?
庄明浩
如果大家还有印象,GPT-5是在8月份发布的,Claude那个版本也是。8月是美国几家头部厂商集中发版的月份,而7月几乎成了中国厂商最密集的开源月——每天都有新模型上线。那是一个真正的「疯狂七月」。
Minimax当时甚至搞了一个「发布周」,连续七天每天都上新。智谱、Kimi等国内厂商也都在那段时间集中发力。所以七八月份的注意力确实又回到了「纯模型竞争」。很多公司开始推产品、拉用户、做实施;Infra公司也趁机融资扩张,甚至转向别的方向。
Koji
确关注度不如Manus发布时那种刷屏级的热度。但你要说它「凉了」,我觉得完全没有。因为之后Manus很快公布了9,000万美金ARR,并提出了「RRR」(Realized Recurring Revenue)这个概念(其实只是普及一个更科学的收入指标)。而9,000万美金的体量,已经超过了我们熟知的大多数高速成长公司。
就在上周,a16z Speedrun举办了005 Demo Day,58家创业公司在LA各自展示两分钟。很多到场的人都在Twitter和即刻上说,这场的质量甚至高于YC的Demo Day。我也觉得可能确实如此——a16z更有钱,也能吸引更成熟的创业者。
当时我朋友在现场录了音,我让Gemini听完录音后帮我总结,这些公司大致分成三类:第一类是Agent as a Service——他们在各个垂直领域解决具体问题。所以说,Agent绝对没凉,它只是进入了一个更深、更碎片化的阶段,不再靠刷屏存在感,而是已经渗透进各种创业场景中。
庄明浩
同一时间,a16z还发布了一个半年榜单——和一家支付数据厂商联合推出的初创公司收入榜。榜单统计了这些初创公司把钱花在了哪些AI公司上。其中有四家中国公司入选:剪映、可灵、Manus和Genspark。
Koji
回顾来看,从2012年Siri发布以来,手机基本都有语音助手,但和今天的Agent相比,仍存在代际差别。
庄明浩
是的,这其实是一脉相承的演化。首先,语音模型的能力显著增强了;其次,这一轮语音模型的进展是「端到端」的。如果大家还有印象,GPT某个版本最令人震撼的演示就是语音对话、打电话的那一幕,那体现了端到端语音模型的强大能力。
如果把整个互联网生态看作一个完整系统,那么在这个系统中,已有的应用提供了成熟的场景和体验,手机厂商拥有用户识别与场景落地的能力。因此,他们不会也不可能亲自完成所有功能,而是选择与已有成熟场景的服务方合作。
就像OpenAI的ChatGPT会与外部厂商合作一样,逻辑完全相同。在中国语境下,这种生态合作的优势更加明显。因为中国的移动互联网生态非常成熟,应用的场景覆盖面极广,只要前端需求分析做得好,就一定有优质服务方来提供解决方案。
而这些服务的实现方式可能是Agent,也可能是搜索或传统列表,但核心在于:整个生态的形成,正是建立在中国移动互联网丰富的既有基础之上。
开源:中国特色的生态
Koji
今年有一个明显的变化——过去两年,AI正在加速在设备终端落地。再加上Agent的快速发展,设备厂商普遍认为结合Agent的能力是未来的重要方向,也纷纷押注这一趋势。
我们前面已经讨论了大模型、多模态以及Agent,这些都构成了一个相当丰富的体系。接下来我们聊聊生态,首先是「开源生态」。
今年开源已经成为中国从上到下的共识与国家级策略。最近上海还出台政策,鼓励企业不仅要做开源产品,还要建设开源社区。政策甚至提供最高500万现金奖励,授予在开源领域具有足够影响力和流量的项目。这一系列变化的前提,显然是DeepSeek R1的成功。它让大家看到,中国公司在全球竞争中,开源是一条可行且有竞争力的道路。
那明浩,你怎么看「开源」在今年的发展以及它所带来的意义?
庄明浩
其实早在去年,就有记者问过Sam Altman对「开源」和「闭源」的看法。当时他的回答是,最领先的模型一定是闭源的,因为这需要巨大的资金与资源投入。但随着DeepSeek R1的崛起,这个观点开始被动摇。如今业内普遍认为,开源模型的能力正在迅速追赶,未来顶级模型中必然会出现开源模型。
甚至在前几天发布的「State of AI Report」中就有预测:到2026年,一定会有一个开源模型在一段时间内登上全球第一。此外,GPT-5发布后,其部分模型也开源了,OpenAI也不得不参与到开源体系中。当开源模型的基础能力足够强时,开源与闭源之间的性能差距已不再显著。而在成本巨大差异的情况下,开源在开发者生态和应用端的扩展性上更具优势。
现在评估一个模型是否有意义,不仅仅看Benchmark分数,更重要的是:有多少人使用、它的算力消耗、覆盖的厂商数量,以及它在生态中的渗透程度。因为即便模型再强大,如果没人使用,也没有意义。从这个角度来看,开源为模型厂商提供了另一种路径,可以获得认可、积累关注,并在社区协作中不断改进模型。
过去大家认为开源「不挣钱」,是理想化的技术浪漫,但现在开源与商业化并不矛盾。以DeepSeek为例,它虽然开源,但其API同样收费。B端企业若要访问其API,需要付费使用。虽然DeepSeek的API成本可能只有OpenAI的几十倍甚至上百倍差距,但只要它的成本结构可控,它就能通过这种方式建立独立的商业模式。更重要的是,开源社区的存在让更多开发者和厂商能够共同改进模型。理论上,使用得越多,模型改进得也越快。
从更宏观的角度看,如今全球AI的竞争,本质上是中美两国的竞争。除了中美本土的对抗,更大的问题是:其他国家如何选择?他们总需要模型,那么是选择OpenAI,还是中国公司的,亦或自建?例如日本、非洲国家、东南亚、中东地区都会面临这样的决策。因此,开源在某种意义上,也成为一种具有战略意义的「软性武器」。
Koji
没错。开源模型往往更容易获得全球范围内的好感。它让更多人能以更低成本在本地部署模型,从而更快获得用户。同时,它也天然解决了「信任」问题——很多人担心数据被泄露或滥用,而开源模型让这一切变得透明、可验证。
庄明浩
比如最近「双十一」,我在选购笔记本电脑时注意到,有一个型号几乎瞬间售罄。原因在于,它特别适合本地部署大模型——内存和显存都很大,但价格相对低廉。对从事大模型研究的人来说,这种设备是「刚需」。
Ronghui
你刚提到的「营销」这一点我非常同意。像DeepSeek梁文峰,他从不接受媒体采访,但他有自己与技术世界沟通的方式。
庄明浩
他是「第一作者」的身份。
Ronghui
他们发的论文会让人对技术发展产生乐观和信心。在这个世界有各种不可抗力因素导致沟通受限的情况下,仍然存在一个可以通过独特语言和方式沟通的世界。
我记得当时DeepSeek发出后,我看了Lex Fridman的五小时播客,他非常客观、平静地分析为什么R1做得好,基本没有政治偏见。你会觉得技术世界的人仍然相信,只要产品足够好,就能被客观评估和认可。
Koji
今年在应用层你看到哪些值得注意的突破?除了我们前面聊到的Agent,还有哪些你觉得是年度科技记忆中的关键词或应用?
庄明浩
Coding肯定绕不开,尤其是AI Coding。今年在前端、后端、数据库等细分领域进展都很多。
另一个是垂直领域的Agent发展很快。通用Agent成为显学,无论大模型厂商还是初创公司都在做。但在垂直板块,比如法律行业,今年有几家公司融了很多钱。这些公司需要大量垂直行业信息和工作流,以满足隐私和数据安全要求。不止一两家,可能有五六家甚至七八家公司在这个领域融资和发展不错。
金融领域也类似,分为一级、二级、保险、银行等。营销板块一直是竞争最激烈的领域,包括线上、线下、搜索引擎、视频、图片、文字、邮件等。虽然这些公司规模不大,但发展非常繁荣。
我觉得还有一个不在主流讨论范围内、但一直在发展的板块——社交与陪伴。a16z最新榜单中,Web端前50有10家,App端有12或13家,但几乎没人讨论。可能因为社交已经经历了多个代际,从1.0到2.0加入互动与沉浸体验,再到3.0场景化打造,如今还在进一步演化。
从今年Q3开始,国内一级市场上有几家做AI动态漫(即AI动画或动态漫画)的公司融资很多。动漫这个板块天花板很明显,上一代移动互联网创业时大家已经尝试过,但几乎没有成果。AI的加持带来了更多可能,但即使推到极致,也不会有巨大突破。只是因为图像生成、推理模型的进步、可用性提升,加上动漫平台内容需求、出海故事、短剧加持,这个板块被「挤」出来,获得了超出预期的关注。
这也反映出资本市场的动态——当一线赛道被挤满后,创业者、VC、投资人都需要新的「二级牌桌」。一级牌桌已经容不下这么多人了。
Koji
所以你并不是不看好AI动态漫画?
庄明浩
没有,我们也投了一家。只是它的市场关注周期不会太长,被认可的时间窗口有限,所以要抓紧时间。
那你觉得在国内目前有没有出现类似Cursor的应用?
庄明浩
Cursor或类似Cursor的应用,可能有两个维度。一个是Coding,这个大家都有;但另一个是能像它那样真正定义一个范式或品类,我觉得挺难的。
Ronghui
为什么?
庄明浩
主要是因为,中国在移动互联网时代,纯toC产品的设计、运营能力可能比美国更成熟,所以大家会期待纯toC应用的爆发。但截至目前,我们还没看到这个结论被验证。
看榜单仍然是我们之前提到的那些应用。即使出现一些「新」名字,仔细看其实90%是传统App,只加了10%的AI功能,却被归入「AI应用榜单」前列。这种情况让人难以认同,因为这些公司很多都成立多年,并不算新。
Koji
比如哪些?哈哈哈,我知道你想说谁。
庄明浩
这个不能说!得罪人,哈哈哈。
Ronghui
美国的那些应用,动不动标题就是「多少时间内达到多少ARR」。
庄明浩
对,那可能是美国的趋势。但在中国我们没法照搬,因为我们没有办法讲ARR。那我们能评判什么?无非就是用户量。可在当下的中国移动互联网市场,即使把Web端算上,要做到高用户量太难了。这不是AI的问题,而是整个行业的问题。
Quick Mobile的上半年统计把所有AI应用分为三类:独立App、Web、插件。其中独立App和Web应用中有四分之三用户量负增长,只有四分之一在增长。而插件中约有三分之二在增长。
但问题是,谁愿意只做插件?现实就是如此。为什么插件增长?因为在当前中国的移动互联网体系下,所有入口位置都已被占满,就像关键词一样。你不做插件,想单独开辟新战场太难了。
回到我们之前提到的几家公司,比如做AI图片社区,他们都拿到了融资,有的拿了两三轮甚至三四轮。创始人都很优秀,也在做正确的事。但即便如此,也很难在短时间内实现用户数据的爆发式增长。这种超级爆发的趋势在今天几乎不可能出现了。当年移动互联网爆发时期,新应用一周就能有上百万日活的情况,如今几乎不会再有。即使出现,也像流星一样稍纵即逝。
二级市场狂热,一级市场呢?
Koji
现在美国有很多夸张的融资故事,几乎每周都会出现一家没听说过的公司就能融到五千万美元。这些公司很多是toB的。但在中国,这种情况很难发生。一方面是因为中小企业的付费意愿、能力、意识不足;另一方面是因为我们的移动互联网太成熟了。
移动互联网如今是一个充满「城堡」的地方——微信是一个城堡,抖音是一个城堡,小红书也是一个城堡。而在美国,Web端更开放,鼓励各种工具互相协作,实现1+1>2的效果。这种差异在创业生态和机会选择上反映得很明显。我觉得我们现在更加被动。
庄明浩
确实,原来那套我们熟悉的趋势如今太难复现了。我们需要新的趋势,但又不能完全照搬美国的模式,因为底层基础不同。那我们的趋势该是什么样?这不仅是创业者的问题,也是投资人的问题——我们该投什么?
对当下的美元基金VC而言,AI美元投资确实非常难做。大模型项目投出后,跟几轮就结束了,只能等待结果。大家都说AI应用看中国公司,但如果是出海团队,又会面临各种复杂问题。如果投纯国内团队,又要问:你期待的是什么?期待的退出方式是什么?这些问题几乎无解。
当然,我现在不做纯VC,可以轻松地讲这些。但换位思考,这些问题确实让投资工作难以开展。所以只能先放下这些无解的问题,专注看创始人的背景和方向,认真交流,判断是否值得相信,然后再决定投资。别想太多,因为想也想不清楚。
Koji
前几天我见了一位基金的管理合伙人,问他怎么看当前的美元VC环境。大家普遍觉得不好做,他说自己问了一个问题:是否还相信VC的底层叙事——科技公司需要耐心资本在早期阶段帮助它们实现从0到1的建设。如果还相信,就继续做。
庄明浩
这让我想到昨天刚公布的诺贝尔经济学奖,其中一位得主的研究指出,真正推动经济高速增长的是「破坏式创新」。这种创新与VC的发展逻辑是紧密绑定的。
如果你相信这一底层逻辑,当然仍然需要VC的存在。但问题在于,这是一种过于理想化、终极化的答案。逻辑没错,但落实到现实执行层,尤其在国内,会受到太多限制与掣肘。投资人只能在有限的空间里辗转寻找解法。
这也是如今许多仍然相信技术、相信产品、相信创新会改变世界的投资人内心反复权衡的天平。
Koji
那在AI之外呢?比如具身智能,今年投入也很多。
Ronghui
AI硬件其实非常热。
庄明浩
是的,AI硬件确实很热。我们可以看到融资创始人的背景变化。最早是字节等大厂的产品经理出来拿到融资;再早一些是科研背景的人,比如实验室老师或研究员。
但后来大家发现,这两类创始人的项目效果都有限。于是投资开始转向行业型创始人——比如来自大疆、追觅、石头科技、影石等公司的创业者。
Koji
我看到一个媒体的标题是:FA已经把办公室开在大疆旁边了。
庄明浩
没错,逻辑很清楚:投资人已经投完了自己熟悉圈层的人。为什么投硬件?因为相比纯软件项目,硬件更具象、更可见,有实体、有收入模型,投资人会更有安全感。再加上中国在供应链上的优势,更容易产生落地成果。
但即使这样,很多项目最后还是不尽如人意。于是又出现了新一轮逻辑——去找那些让投资人「更信任、睡得着觉」的创始人背景。这套逻辑听起来都对,但换个角度看,我们其实是在「站着说话不腰疼」。身处战场的创业者或投资人并不能靠总结规律生存,他们必须在不确定中做决策。
Ronghui
我昨天听Uncapped的播客,Jack Altman采访Thrive Capital的合伙人Vince Hankes。他讲了一个故事:他们投一个公司,足足花了18个月研究。这在中国几乎不可能发生。
庄明浩
18个月?在中国已经过了四个周期了。
Koji
Vince两个月前来过中国,他见了我们刚才提到的公司中的好几家,对中国很感兴趣,安排了一次非常密集的行程。
所以我自己身在2025,对中国很乐观。
庄明浩
这种乐观其实也带有一点哲学意味——物极必反。当一个领域极端到某种程度,总会出现新的平衡点。就像游戏投资。中国的游戏投资在2015年后基本就不属于VC的领域了。但过去两年,海外VC开始重新关注中国早期游戏团队。要知道,中国的游戏团队几乎十年没在VC射程内了。
Koji
他们的逻辑是什么?投资如何退出?
庄明浩
他们不是先考虑退出,而是从成本角度出发。相较海外团队,中国游戏团队在成本上便宜得多——而且是「全方位的便宜」。与此同时,海外游戏并购一直非常活跃。于是他们把两边优势结合:在中国低成本做内容,再在海外通过并购实现变现。这是中国VC很难做到的。
Koji
其实我觉得像刚才说Vince来中国,包括海外VC看中国的情况,这个世界其实非常关注中国。
我们刚才聊了很多一级市场的内容,而最近二级市场可能才是更受关注、登上新闻头条的地方。比如OpenAI和AMD的新闻一出,AMD这样庞大的公司股价涨了40%;就在我们录播客的前一天,OpenAI和博通(Broadcom)的合作新闻发布,博通的股价也直接上涨10%。
所以在二级市场,其实正在发生很多故事,充满了乐观的情绪。想听听明浩,你过去一年和很多二级市场分析师、投资经理沟通频繁,你会怎么回顾这一年?
庄明浩
我还是想从自己做的内容来看。我今年截至目前一共做了6个报告,第7个正在准备中。
前面包括去年的年终总结、DeepSeek、Manus、Agent的分析,以及今年Q2、Q3的市场总结。我在做第四个报告时才开始提到「是不是泡沫」,到第五个版本时已有两页分析「泡沫」,到了9月的Q3报告,就有六页都在讨论「是不是泡沫」。这个比例的变化说明,关于泡沫的讨论在持续升温。
Q2时有些声音开始觉得市场不太对劲;Q3时我引用最多的是硅谷银行的报告,它做了很多定性与定量分析,包括和2020年互联网泡沫的曲线对比。当时硅谷银行就已经在研究,现在看来这些分析方式被越来越多人采用。
我仍然认为,我们真的在不知不觉中走到了一个极限。比如最头部的「七姐妹」科技公司中,有几家的市值已达三四万亿美元,每年的经营现金流达千亿美元的量级。而OpenAI的估值是5000亿美元。这些数字摆在那,意味着他们能做的事情太多了。
市场已经不满足于单纯靠散户推动股价上涨,这个游戏不够刺激了。与此同时,OpenAI也走到了一个新节点。我觉得Sam在某个时刻顿悟了:原来OpenAI在资本层的操作主要是融资、卖老股、拉估值,同时用这些资金或股份去投资初创公司,比如最近收购了苹果前设计师创办的公司。虽然估值每6到9个月翻倍、每轮融资两三百亿美元,已经刷新历史记录,但整体还算在可控的、可被线性归纳的范围内,至少有人买单、合同签好。
但Sam似乎意识到另一种路径。他最近常被比喻为「天云纵」——类似Google拥有云、模型、产品和Infra。如果未来AI无所不包,那么Google值3万亿美元,OpenAI应该值多少?未来的增长预期能打多久?以前是半年或一年,现在变成五年。所以最近签的合同几乎全是5年或10年期。
可这很讽刺——技术进展是按「年」来推进的。我们看过无数分析师、银行、券商的技术报告,没有人写5年期的预测。但现在Sam说要把未来五年的预期全部压在这件事情上。OpenAI估值已达5000亿美元,这个量级放在全球也屈指可数。即便还未上市,它依然可以影响整个市场。所以我们最近一个月看到的各种新闻,正是这种估值预期下的结果。
早在2024年,Sam曾说过要把这件事做到7万亿美元的规模。这数字当时让人觉得疯了——那时OpenAI估值才1800亿美元。7万亿几乎超出所有人的理解范围。但如今,当我们把OpenAI、NVIDIA、微软、Google、Oracle的未来五年预期加总时,万亿美元的量级已经被公开讨论。
是不是能到7万亿没人知道,但至少「万亿级」的讨论已出现。所有故事、所有预期都被压在未来五年内。谁被投资,谁就要把自己的五年预期也打满。而市场格局又如此激烈,没有人能缺席。AI不再只是技术或产业,它已经变成了市场本身。
今天的AI,不只是一个行业,而是整个系统本身。「too big to fail」已经不足以形容它,它的生态极其复杂,所有人都被卷入其中,规模大到理性评估已无意义。我不断强调:我们可能已经走到了一个所有人都没有意识到的极限。
截至今天,全球所有上市公司中,IPO融资额最高的也不过250亿美元左右。
Ronghui
是单个公司吗?
庄明浩
是沙特阿美,那可是世界纪录,已经比OpenAI,甚至比很多云计算公司的单轮融资都小了。如果今天OpenAI上市,它的体量会有多大?需要融多少钱?整个股市恐怕都要被撕开一个口子。
我那天还看到一个有趣的数据:在Web时代,烧钱最多的上市公司是亚马逊,上市前烧了20亿美元;到了移动互联网时代,最「烧钱」的是Uber,烧了大约400亿美元,是亚马逊的20倍。那是否意味着OpenAI要烧到Uber的20倍,也就是8,000亿美元才能上市?
现在看来,这个数字并非天方夜谭,它很可能就是事实。它被定在了这个位置上,不管出于什么原因,这个时代走到这里,带着美国巨大的技术势能、硅谷趋势和金融趋势,滚到这个阶段——只能继续往前走,别无选择。
接着说,现在无数人都在拿这件事做对比:与当年的互联网泡沫、铁路泡沫相比。当然,现在没人再提郁金香或比特币了,那不是一回事。我们讨论的是那些真正意义上的工业革命式的历史变革。
最近讨论最热的比喻是互联网。当年互联网泡沫破裂,纳斯达克的dot-com公司几乎全线崩塌,但底层的光纤基础设施留下来了,为之后二十年的互联网发展打下了地基。可现实是——当年铺设光纤的公司几乎全都死了。那是不是意味着今天这些建设数据中心的公司,也可能会死?
未来当然可能更好,但这里存在关键差异:光纤铺在那儿,十五年、二十年还能用;而今天投入的数据中心GPU,三年就折旧完,再过两年可能就淘汰。折旧周期带来的压力极大。
更大的问题是:整个产业的巨额资本投入,建立在头部公司强大的营收能力之上。像Meta、Google、NVIDIA、微软这样的公司,每年能赚上千亿美元,投入千亿也没问题。但除了这几家,体系内的其他公司几乎都快撑不住了。做云服务的公司、甚至马斯克的xAI,现在都需要新的资金来源,已经开始使用债务融资。
分析泡沫时,如果是股权泡沫还好,但债务泡沫就麻烦得多。次贷危机就是因为债是刚性的,一旦还不上就崩盘。所以当我们把那几家巨头剔除后,底层的风险系数其实非常高。像CoreWeave这样的公司,资产负债表已经相当难看。它原本是做矿场起家的,用高杠杆的古典金融逻辑经营。虽然这种模式在Web3世界不算罕见,但确实在蔓延成一个趋势。
还有一个更有意思的信号。截止2025年10月中,标普500涨幅最高的两家公司——既不是GE或通用能源公司,也不是什么金矿公司,而是两家硬盘厂商:希捷(Seagate)和西部数据(Western Digital)。
为什么?因为大家意识到数据中心建设的狂潮已经来了。第一波受益的是英伟达(NVIDIA),然后是云计算公司,接着变压器、冷却、电力等板块都被炒了一遍。最后大家发现,还需要硬盘,需要存储。但硬盘又受制于固态颗粒的供应。这也是为什么Sam Altman最近跑去韩国和日本,拜访SK和三星——为了确保存储供应。
回到刚才那句话,我们真的已经不知不觉走到了许多领域的极限。电力、冷却早已讨论无数次,如今连存储都成了限制。而这又是一个几乎被垄断的行业。
所以你会发现,当所有因素叠加在一起时,已经很难区分是谁的原因、哪家公司的责任。它更像是一场巨大的「共谋」——不是主动的,而是被推着滚到这一步。等我们意识到时,已经没有退路,只能继续向前。这就是整个故事。
Ronghui
前面我们其实提了很多关于欧美在2025年硬件算力方面的进展,但与此同时,国内这几年在相关领域也有大量投入与显著成果。相信行业里的人都还记得,今年夏天的世界人工智能大会和世界机器人大会有多火爆——几乎是一票难求。
我补充一个细节:在查资料时,我让AI帮我总结算力方面的进展,结果几个报告都提到同一点——「东数西算」工程在2025年建成了一个超过300亿FLOPS的智能算力网络。这个工程是2022年启动的国家级项目,核心思路是将东部地区的数据处理需求转移到西部,以实现全国算力资源的优化配置。
至于300亿FLOPS是什么概念?AI给我的解释很形象:如果你的手机每秒能完成100次计算,那么300亿FLOPS就相当于300万亿台手机同时工作一秒钟。换句话说,这样的算力足以支撑超大规模的AI模型,处理海量的城市数据,并同时为数十亿用户提供互联网服务。
另一大热门领域自然是机器人,也就是大家常说的「具身智能」。中国在过去12年一直是全球最大的工业机器人市场。9月份发布的《世界机器人报告》提到,中国在工业机器人的新安装量和在运营存量上,依然位居全球第一(基于2024年数据),而2025年预计会更进一步。
报告中还有一个关键数据:到2024年,中国本土制造商的销量首次超过外国供应商,市场份额从十年前的28%提升到57%,几乎翻了一倍。这意味着中国不仅是最大市场,也在制造端实现了质的突破。
我记得我们之前 有期播客采访维他动力联创赵哲伦 ,他正好在北京参加今年的WRC世界机器人大会。他提到,当晚要去「机器人运动会」,并分享了一些非常生动的观察。我印象很深——他说,这个「机器人运动会」就像汽车文化里的F1,它的意义不仅是竞技,更是为整个产业培育文化土壤。这种文化的建立,可能会对未来产业生态产生深远影响。
他还提到一个细节:在大会现场,很多小孩和机器人互动。他当时感叹——我们这一代是伴随电脑和手机长大的,而现在的孩子,可能会成为伴随机器人成长的一代人。
从更长远的时间视角来看,这或许正是一个新的时代开端。也呼应了我们之前问明浩的那个问题——「有哪些事是十年后回头看,仍然会觉得对今年印象深刻的?」
或许正是这些变化,让人真切地感到,我们正在亲历一个历史性的起点。
Koji
我们从一开始聊大模型、多模态、Agent,到后来讲二级市场,一开始聊的是创业、机会、技术产品,最后其实变成了一个很有历史纵深的话题长河。
庄明浩
我是司马迁呢。
Koji
哈哈哈,这是很有意思的一期节目。谢谢明浩,感谢!也期待明年这个时候我们再来复盘。
庄明浩
感谢!
从思考到创造