“敢不敢”胜过“能不能”-虎嗅网

本文来自微信公众号：极客公园，作者：连冉，对话：张鹏（前极客公园创始人）、盖坤（快手高级副总裁兼可灵 AI 事业部总负责人），编辑：连冉，原文标题：《“敢不敢”胜过“能不能”，万字解析可灵 AI 的“非典型”突围路》，题图来自：《纸手机》画面截图

早期研发的艰辛：资源“钣金”时代

张鹏：做可灵 1.0 版本时，你投入了多少资源支撑这个“全球第一”？这个账你应该算过。

盖坤：1.0 的起步非常坎坷。在那个阶段，我们甚至没有足够的顶级 NVIDIA 显卡可用，很多训练是靠公司此前采购的 AMD 卡或其他厂家的芯片支撑的。

张鹏：那训练过程肯定磕磕绊绊，不够顺滑。

盖坤：是的。当时团队在公司内部还处于默默无名的状态。我负责管理社区科学部，在大模型方向上规划了几个维度，硬是从现有资源里“挤”出了一些算力卡。说实话，当时用的很多还不是英伟达的卡，算是“杂牌”卡，没有任何一家主流视频模型公司会选择那样的配置。

张鹏：听起来这不像是标准的工业化生产，更像是一种“钣金活儿”，是靠手工和拼劲儿硬生生打磨出来的。

盖坤：确实是这样。不过随着模型效果越来越好，团队信心也不断提升，内部慢慢形成了一个正循环：效果越好，信心越大，我也就更有理由在资源池里向他们倾斜。

敢不敢与能不能

张鹏：在战略评估时，你是如何推演“可行性”的？“敢不敢”挑战 OpenAI 是一个维度，但物理上的“能不能”是如何推理出来的？

盖坤：“敢不敢”是前置条件，如果不决策，连上牌桌的机会都没有。当时我拍下“全球第一个发布并超越 Sora”的目标时，团队内部充满了震惊甚至抵触。

我的逻辑有两点，一个是生存跃迁，这是上头部牌桌的唯一机会。如果不搏这一把，很可能陷入“平庸-无资源-被淘汰”的负循环。还有一个是“光脚”心态，当时我们本来就是 Nobody。博输了还是 Nobody，博赢了就彻底改变命运。

张鹏：这一波浪潮里，“敢不敢”有时真的比“能不能”更重要。

盖坤：“敢不敢”是起点，但“能不能”靠的是硬核能力。团队的技术底子必须过硬，否则喊口号没用。我们会把模型的每一层架构都讨论得非常透彻。我们也有对模型、数据量、卡数和时间进行量化拆解。虽然有风险，但我们算下来 1.0 版本在过亿级或数亿级数据量下是物理可行的。

我当时还推测 OpenAI 会为了应对 Google 而分心，优先回归语言模型大版本的迭代，这为我们留出了 6～7 月的窗口期。事后证明，OpenAI 直到 12 月才真正发布产品，我们对竞争节奏的判断基本准确。

从 Disagree 到 120% 的 Commit

张鹏：你把不确定性压到了极限。但技术能力之外，如何让一群觉得“目标不可能”的人真正动起来？

盖坤：意愿至关重要。当时团队展现了公司一直倡导的核心价值观：Disagree and Commit（保留意见但全力执行）。

当我刚提出目标时，屋子里几乎所有人都在反对，认为这个目标压得太死，凭什么觉得能搞定？我的方法很简单：深度拆解加上目标强压。

同时，这群同学也憋着一股劲。很多核心成员此前在公司内默默无名，他们也意识到，这一战如果打成了，就是真正的“一战成名”。这种“光脚不怕穿鞋”的斗志，在重大目标面前起到了决定性作用。

但我最看重的是他们那种“保留意见但全力执行”（Disagree and Commit）的品质。这不只是口头答应，而是先激烈讨论、表达反对，但在目标定死、进入执行阶段后，能投入 120% 的精力和意愿。我见过很多团队，虽然口头上被压服了，但在实际执行中会有巨大的动作变形。团队这种价值观的传承，在早期起到了至关重要的作用。

多模态架构的必然逻辑

张鹏：1.0 的成功在于敢于率先突破壁垒，拿到了最大的红利。但在那个节点，大部分人还看不清方向，你能先发制人是因为你敢于在没有共识时做决策。那么你认为的第二个里程碑 O1，为什么如此重要？

盖坤：其实从 2024 年到 2025 年，我的 OKR 里始终贯穿着一个词：多模态。

这个想法源于我对“愿景”的倒推：如果目标是让一个人能拍出脑海中的电影，那么现在的技术还缺什么？结论很明显：语言作为沟通媒介，在视觉表达上是极其匮乏的。

比如，在拍摄中，你很难用语言精准描述一个人的长相并保证多镜头的一致性，或者描述一段极其复杂的微表情和动作细节。文字太抽象，无法还原精准的创意图景。

张鹏：也就是说，在视频创作领域，纯语言并不是一个高效的介质。

盖坤：对，所以我们要进化交互方式。我们在 2025 年 4 月推出了 MVL（多模态视觉语言）。其本质是解决输入侧的问题：虽然人类最习惯语言，但语言描述不了的细节，可以用图片、视频等其他模态的信息来补充。在我们的架构里，这些多模态信息被转化为语言流中的“特殊词（Special Tokens）”，比如“图 1 中的人是主角”，从而实现更精准的控制。

如何在迷雾中带队爬山？

张鹏：MVL 是解决问题的架构，而 O1 则是承载这种能力的完整模型。在这个过程中，团队内部是否再次经历了不共识？

盖坤：这次不共识的时间比 1.0 时期长得多。当时算法团队面前有两个分叉，一个是无限雕花，沿着 1.0、1.5、1.6 到 2.0 的路径，不断卷文生视频、图生视频的技术指标。这个的优点是路径清晰，每提升一点指标，市场和业务都会给出正向反馈，团队能持续获得“确定性”的奖励。

另一个是升维跃迁，不再纠结于基础功能的指标精度，而是彻底改变模型的理念和输入输出方式。这里的挑战意味着我们要解决一堆从未有人解过的新问题。

张鹏：你显然是坚定支持后者的。

盖坤：是的。我坚信大模型的“涌现”能力：当你把新问题解得足够好时，它反而能带动老问题的泛化处理。

当时团队面临两个巨大的不确定性，一个是市场不确定性，没人做过这种多模态交互，用户会买账吗？另一个是技术不确定性，这种架构在技术上能否跑通？

特别是 2025 年 Nano Banana 出来时，我一方面遗憾视频领域的进度被图像领域的类似技术抢了先，另一方面也庆幸它帮我们完成了内部“统一思想”的过程，让团队意识到多模态就是唯一的终点。

但我作为掌舵者必须明确方向：基座指标要保，但解决新问题才是未来的核心。

张鹏：1.0 时的阻力来自于“不相信能做成”，而这次的阻力来自于“大家不再是光脚的了”，开始有了成本意识和声誉顾虑。

盖坤：没错。大家开始在乎技术投入产出比。

张鹏：这种痛苦也理解。绝大多数人习惯了看山顶的风景，现在你让他们下到满是迷雾的山脚重新出发，去爬一座看不见顶的山，这确实极度考验。

很多创新公司其实都会面临同样的抉择：是在现有高度上不断做工程精度的“雕花”，还是对齐大目标，一波波地翻山越岭？

盖坤：这就是可灵第二个节点比第一个节点进步的地方。1.0 时期，Sora 的 Demo 已经在前面了，技术方案（如 DiT 架构）虽然细节没公布，但学术界早有雏形，大家对“能不能做出来”没疑问，只是在赶工期。

而到了 O1、3.0 阶段，我们是在选择是平滑地走向下一个小高峰，还是穿越延绵的山脉去寻找终极目标。现在团队对于“挑战未知”已经形成了一种肌肉记忆，这种自信和沉淀非常宝贵。

张鹏：现在团队的人才流动情况如何？

盖坤：目前总体是净流入，但流入流出的动力都很强。流入动力是说来这儿挑战世界一流的技术，做真正 Great 的产品。流出动力就是高位变现。在这儿积累了足够的 Credit，去外面也能拿到极高的待遇。

这很正常，我也坦诚面对。如果目标拉得不够高，优秀的人才觉得没意思自然会走；只有不断探索无人区，才能持续吸引想做大事的人上车。

张鹏：接下来聊聊最近火出圈的 Motion Control（动作控制）。这种让 C 端用户觉得震撼、甚至产生病毒式传播的功能，是你们预判到的爆发点吗？

盖坤：在我的视角里，Motion Control 的起点依然是需求，而非单纯追求“爆款”，里面确实有赌对的成分。其实大家看到的爆版已经是我们的第二版了。

在 2.0 发布会时，我们提出了 MVL（多模态视觉语言）的理念。当时我们就在思考：除了图像、视频和语言，还有什么可以作为新模态？

张鹏：当时用户的痛点是动作不可控、容易崩坏。

盖坤：对。角色一致性问题解决得比较快，但动作控制一直是难点。我们当时就在探索如何把“动作”抽象成一种模态进行控制。

张鹏：所以，“动作”在你们看来也是一种模态。

盖坤：在我们的认知里，动作（Motion）本身就是一个模态。现在的交互还处于中间阶段，即用户需要上传一个已有的视频，让 AI 去跟随。但最终的目标是实现动作的抽象化，让用户能直接与“动作模态”交互，从而实现真正的自由创作。

张鹏：直接下令让角色“快乐地奔跑”，它就能跑出来，而不是非得找个跑步视频喂给它。

盖坤：没错。在 2.0 发布会上，我预告动作控制时，其实是把它放在多模态视觉语言（MVL）的大版图里。虽然当时业界还没完全理解这种前瞻性，但我坚信这是通往愿景的必经之路。

张鹏：这种前瞻思维往往伴随着内部的博弈。这中间有遇到什么波折吗？

盖坤：早期确实有争议。第一版动作控制的技术实现不够理想，产品入口也深，用户很难发现。

但在管理上，我坚持要把这个方向做下去。后来团队在技术上实现了突破：我们没有采用学术界主流的“火柴人”方案，而是对动作模态的定义进行了创新。

张鹏：后来是调高了内部的“奖励函数”，给团队加压了吗？

盖坤：其实是自然生长的过程，我只是提供了必要的“阳光和水”，核心工作是团队自主完成的。当模型进入测试尾期，内部的测试用例出来的结果让我们非常惊艳。那种质感已经超越了传统的 AI 生成感，甚至让我找回了早期刷短视频时（如海草舞时期）那种停不下来的感觉。

张鹏：当时你预感到它会火，那上线后的真实反馈是怎样的？

盖坤：上线后我一直在等它“爆”。我们 12 月中旬上线，等了十几天，直到 1 月初先在印度火了，接着是韩国。

有意思的是，这属于“意料之中的潜力，意料之外的路径”。我们预期的爆点是极其硬核的帅哥美女跳舞，那是我们能力最强、素质最高的点。但实际走红的点反而是小朋友和宠物的趣味舞蹈。

我们的宣发体量并不大，用户生态的自发传播带来了这次的影响。

多模态的终局：走向 All-in-One

张鹏：所以本质上，你们是通过把“动作”引入多模态版图，创造了新的可能性。那么下一步呢？除了动作，还有没有其他待开发的模态？

盖坤：动作模态还没做完整。现在的动作控制更像是一个插件或单独的功能，下一步的目标是实现真正的All-in-One（全模态大一统）——将动作模态深度抽象并融入模型。

至于未来，为了解决“场景一致性”等更高阶的需求，我们可能会对模态进行进一步的扩展和定义。

张鹏：“场景一致性”最终会对应到什么模态？

盖坤：它不一定是一个简单的模态，更像是一个综合解决方案。

目前人物一致性已经有了长足进步，但场景一致性依然是大问题。当用户要求变高时，你会发现切镜头后屋子的结构变了。虽然现在大家往往被特写镜头吸引而忽视背景，但在未来的完整叙事里，场景的一致性必须是断点。

我们可能需要通过简单的 3D 堆叠（3D Stacking）叠加精细的表观细节生成能力（Appearance Generation），让场景在不同镜头、角度和位置下保持绝对一致。这在拍摄复杂的太空片或史诗级故事片时尤为关键。

张鹏：现在业界有个调侃的观点：AI 已经很强了，但由于普通用户缺乏专业描述能力，AI 的上限很难被激发。这也解释了为什么现在很多创业公司都转向了 Pro-C（专业级个人用户），因为只有这部分人能用 AI 赚到钱并为此付费。

盖坤：其实不只是普通用户，如果没有合适的交互介质，连 Pro-C 也控制不了 AI。如果你不提供一种契合 AI 能力逻辑的交互方式，专业人士同样会觉得 AI 难以驯服。

张鹏：所以，未来的核心目标其实是重新定义交互。这种交互不再是简单的 UI/UX 调色，而是通过拆解不同的模态（如动作、表情、3D 结构等）来改变交互介质，让模型的能力真正落到产品里。这已经从纯设计变成了一个极其深度的技术课题。

盖坤：总结来说，可灵的核心能力是由三件事支撑的集合。首先是愿景驱动，这里包含终极需求和未来市场的想象力。我们所有的技术反推，起点都是为了实现“让每个人都能拍出脑海中的电影”。

其次是不设边界的技术功底，作为算法出身，我要求技术研发不设边界，但前提是“心里有谱”。你得清楚模型在技术逻辑上究竟能突破到哪一步。

最后是产品交互的同步变革：像 MVL 这种理念，本质是产品交互层面的创新。任何单方面的能力都不足以支撑现在的可灵。我需要知道模型的发展方向，更要知道如何通过重构人和 AI 之间的交互介质，来释放人的创作欲。

张鹏：你如何定义“模态”和“解决方案”？

盖坤：模态是你定义的一种新的输入/输出格式，比如文字、图像、视频、动作序列，甚至未来的 3D 建模态。解决方案是多种模态共同配合来解决一个复杂问题。

对于普通用户来说，能操作的 3D 往往是非常粗糙的。但要实现视频的一致性，精细的细节必不可少。这就是为什么我主张将模态与解决方案分层：我们可能需要用一个粗糙的 3D 模型作为骨架，叠加生图模态的表观细节，再配合文字描述，三个模态合力来解决任意视角下的场景一致性问题。

我们现在在做的 Scaling 模态，本质上是把世界的运行公式拆解得更完整。每定义一种新模态（如我们对动作控制的技术处理），就像创造一种新语言，虽然极难，但这才是真正的创新路径。

张鹏：这本质上是把世界的运行公式拆解得更完整，让工程化实现变得更容易。

盖坤：没错。但创造一个新模态（如我们对动作控制的底层处理）极难，它不是现有东西的排列组合，而是需要无数次的想象与验证，就像创造一门新语言。我们团队的路径就是沿着目标，在技术和交互上“不设边界”。大多数人是在已有模态中做选择，而我们是直接创造新模态。

1 到 3 年内实现“人人都是导演”

张鹏：你提到了一个词——“中期愿景”。这个中期是怎么定义的？

盖坤：我不是按时间定义，而是按对世界的改变来定义。

我的中期愿景是：让每个人都能用 AI 拍出好故事、好电影。考虑到现在 AI 并没有减速，甚至在加速进化，我觉得快则一年，慢则三年，这个愿景就能实现。

目前行业里 AI 真人短剧的火爆已经验证了这一点。从最初的萌芽到如今已经出现真正赚钱的作品，这非常像一年多以前的动态漫，或者几年前短剧刚起步的状态。AI 彻底改写短剧赛道已经是确定性事件，接下来就是电影。

张鹏：这其实是平权化的过程。不需要是业界大导演，也能拥有拍出高质量作品的资源。

盖坤：对。目前大家还在赚“工具”层面的钱，但这层成熟后，真正的 ToC 机会就来了。

我一直认为：当规模化、多样性的好内容多到一定程度，全新的 AI 内容平台就会诞生。

传统内容平台靠双边网络（创作者与用户）构筑了极其稳固的护城河。新玩家很难切入，因为两端互相卡脖子。但 AI 打破了这一僵局——它提供了一种无法被垄断的新供给。

张鹏：要打开新消费，必须先有新供给。拼多多当年打淘宝也是这个逻辑。但如果仅仅是内容变了，它可能只是“第二个快手”。这种新平台会有什么本质的机制变化吗？

盖坤：我认为有两步走。第一阶段是内容质量。这是必要条件，质量必须足够高，用户才愿意看。第二阶段是互动与交互。当内容质量在赛道内拉不开差距时，新的变量就是个性化与实时互动。

在 AI 时代，这种交互非常直观。比如看一部“爽文”逻辑的短剧，主角可以是你自己。如果你能把自己的形象、性格代入其中，且 AI 能保证生成质量，这种极致的个性化消费将彻底改变人与内容的关系。

张鹏：先解决好内容的“量产”，再通过 AI 实现“主角是你自己”的深度参与。

盖坤：在 AI 生成内容的时代，游戏与影视的边界会模糊。系统不仅能“猜你喜欢”，还能让你通过互动直接影响情节走向。这背后是极致的个性化与极致的互动，这两个维度存在巨大的想象空间。

张鹏：这会催生全新的商业模式。如果用户能把自己“注入”到角色里，甚至让 AI 稍微美化一下形象，大家是非常愿意付费的。现在已有团队基于 LoRA 技术为每个人定制专属模型，这意味着“长期记忆”可以转化为不断迭代的个人模型。

盖坤：没错。当各平台的生成质量都达到临界点、拉不开差距时，个性化与可操控性就成了决定胜负的“决胜点”。

张鹏：一个新平台想要颠覆旧秩序，必须在质量、个性化、可操控性这三个维度同时撞线。否则，单纯的质量优势很快会被对手追平。

盖坤：传统内容平台（如抖音、快手）的双边网络是基于人的，带有强烈的真人社交属性。而 AI 内容平台最重要的变化在于社交属性的转化。

很多人不看好 AI 内容平台，是觉得虚拟形象无法满足真人的社交需求。但我认为需求并没有消失，而是转化为“AI 虚拟社交”或“情感陪伴”。它不再是单纯为了建立线下关系，而是像电子宠物或情感伴侣一样的直达体验。

张鹏：这个比喻很有趣，社交不再是约着去“喝咖啡”，而是跳过过程，直接为用户提供“咖啡因”。现在的爽剧就是这种逻辑——不讲究口感（画面细节），只讲究功效（心理爽感）。

盖坤：AI 真人短剧之所以能在影视赛道率先跑通，是因为爽剧用户对画面质量的容忍度较高。用户可以忍受微小的变形，只要情节足够吸引人。

这个过程是阶梯式的：

1.动态漫阶段：画面质量甚至可以“崩到飞起”，因为情节占比极大。

2.短剧阶段：咖啡因效应强，对画面的容忍度依然较大。

3.高阶影视阶段：随着技术提升，用户最终会对画面、质量、情节提出全面要求。

技术进步正在逐级解锁用户需求。当画面质量不再是障碍，规模化、多样性的好内容供给就会彻底爆发。

盖坤：视频生文模型生成的描述越精准、越细腻，训练出的文生视频模型对指令的遵循度就越高。这属于各家的核心技术壁垒，大家通常秘而不宣，但它确实决定了模型最终的“智商”。视频模型不是一个孤立的单点突破，它的多点联动效应极强。如果视频理解（标注）做得不好，生成的上限也就被锁死了。

张鹏：这事儿就像盖房子，是一层层垒上去的。如果最底层的数据和逻辑垒歪了，后面的模型表现就没法看了。

盖坤：很多人对视频大模型有误解，觉得它只是语言模型的一个应用或延伸。实际上，它是一个完全独立的各种基础模型。

它之所以比语言模型出现得晚，是因为它是一个高度复杂的系统工程，存在极强的技术依赖。语言模型更像是一个“单点”突破——通过爬取和清洗天然存在的文字数据就能起步；但视频模型不同，自然界中并不存在现成的“文本-视频”高质量对齐数据。

张鹏：也就是说，在视频领域，如果你没有技术手段自己去“造”出高质量数据，你连起步的资格都没有。这本质上不是资源问题，而是算法问题。

盖坤：对，“数据本身就是一个算法问题”。但在产品交互层，用户是看不到这层“材料科学”般的底层投入的。

一个顶尖的视频生成团队，必须在“视频理解”上有极深的沉淀。你不能只搞生成，你得先用一系列复杂的理解模型去处理、标注、生成高质量的训练素材。这绝非单点突破能搞定的。

AI 时代组织能力的“第三次演进”

张鹏：过去这段时间，你对于组织团队这方面有什么思考和收获吗？

盖坤：我可以分享一下我对过去二十年企业组织能力的看法，我认为它们经历了三个阶段：

首先是产品与运营驱动阶段，例如阿里早期有极致的 To B 产品和运营能力，核心是搞定供给侧。腾讯早期有极致的 To C 产品能力，在社交上构建出了网络效应。这些业务早期阶段中算法不是必要要素，所以业务逻辑中不太需要处理“算法不确定性”。

然后是算法与实验驱动阶段，这类业务（如 Google 的搜索、字节与快手的推荐）必须处理算法带来的不确定性。核心手段是 AB 实验和 bottom up 的试错机制。通过海量的实验来寻找业务的最优解。局限性在于 AB 实验是有天花板的。它适用于在有限的候选集里做低成本尝试。

最后是 Vision 与顶层意志驱动阶段，大模型时代改变了游戏规则：一次尝试的代价巨大（千万美金起步），且创新是在无限可能的空间里寻找不存在的路径（如多模态、DiT 架构）。核心能力在于由领军人物进行顶层技术与业务意志的规划。这种组织不再只依靠随机赛马，而是靠极强的 Vision（愿景）牵引，在一个茫茫多的可能性中下重注赌对方向。

大模型时代的“隧穿效应”

张鹏：在大模型时代，由于每一次尝试的代价都极其巨大，且面对的是一个完全没有参考系的“开放世界”，传统的 A/B 测试已经失效了。

现在的竞争更像是爱因斯坦式的“思维实验”时代。谁能在脑海中先通过精准的 Vision 完成推演，谁就能在现实中获得最高的执行效率。这种 Vision 就是“魔法”，它能让团队实现“隧穿效应”，绕过对手那些你根本扛不过的肌肉和资源，直接抵达战场中心。

盖坤：没错。在短视频推荐时代，靠的是人力的试错和极高的人素效率。但在大模型这种基模时代，语境彻底变了。

我们在资源和肌肉上很难和这种推土机式的试错效率竞争。如果非要拼肌肉，那就是斯巴达 300 勇士冲向十几万大军，哪怕打出神迹，最后也只能光荣战死。我们必须变“法师”，靠领先的技术方法论和顶层规划去制造局部优势，这才是第二名赶超第一名的唯一路径。

张鹏：所以社区科学线的存在，其实就是你们在算法领域保持“法师”属性的核心？

盖坤：我一直致力于算法层面的原创创新。在社科线，我们将搜、推、广与大模型结合，这种在方法论层面的文明和底蕴，让我们在面对第一名的肌肉竞争时，能守住那块属于自己的阵地。

张鹏：听说这个房间（1405 办公室）对你们意义非凡？

盖坤：是的。所有重大的转折点决策都是在这个房间里做的。

一个是 2023 年底决定启动视频生成方向；另一个是 2024 年春节后，决定全线放弃其他方案，All-in DiT 架构，并拍板要做全球第一个可用产品。这些决策不仅需要技术判断，更需要一种能量。

张鹏：这也是中国企业最精彩的地方：不是单纯的弯道超车，而是看准时机后的“直线加速”。

张鹏：今天聊得非常畅快。过去大家看可灵，往往看的是参数和样片，我这次来就是想还原背后的那些“底层代码”——是什么在驱动你们？

盖坤：在这个时代，大家遗忘得很快，只有把产品做到极致，不断翻越一座座山丘，才能真正抵达彼岸。

本文来自微信公众号：极客公园，作者：连冉

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

“敢不敢”胜过“能不能”