扫码打开虎嗅APP
本文来自微信公众号:极客公园,作者:连冉,对话:张鹏(前极客公园创始人)、盖坤(快手高级副总裁兼可灵 AI 事业部总负责人),编辑:连冉,原文标题:《“敢不敢”胜过“能不能”,万字解析可灵 AI 的“非典型”突围路》,题图来自:《纸手机》画面截图
张鹏:做 可灵 1.0 版本时,你投入了多少资源支撑这个“全球第一”?这个账你应该算过。
盖坤:1.0 的起步非常坎坷。在那个阶段,我们甚至没有足够的顶级 NVIDIA 显卡可用,很多训练是靠公司此前采购的 AMD 卡或其他厂家的芯片支撑的。
张鹏:那训练过程肯定磕磕绊绊,不够顺滑。
盖坤:是的。当时团队在公司内部还处于默默无名的状态。我负责管理社区科学部,在大模型方向上规划了几个维度,硬是从现有资源里“挤”出了一些算力卡。说实话,当时用的很多还不是英伟达的卡,算是“杂牌”卡,没有任何一家主流视频模型公司会选择那样的配置。
张鹏:听起来这不像是标准的工业化生产,更像是一种“钣金活儿”,是靠手工和拼劲儿硬生生打磨出来的。
盖坤:确实是这样。不过随着模型效果越来越好,团队信心也不断提升,内部慢慢形成了一个正循环:效果越好,信心越大,我也就更有理由在资源池里向他们倾斜。
张鹏:在战略评估时,你是如何推演“可行性”的?“敢不敢”挑战 OpenAI 是一个维度,但物理上的“能不能”是如何推理出来的?
盖坤:“敢不敢”是前置条件,如果不决策,连上牌桌的机会都没有。当时我拍下“全球第一个发布并超越 Sora”的目标时,团队内部充满了震惊甚至抵触。
我的逻辑有两点,一个是生存跃迁,这是上头部牌桌的唯一机会。如果不搏这一把,很可能陷入“平庸-无资源-被淘汰”的负循环。还有一个是“光脚”心态,当时我们本来就是 Nobody。博输了还是 Nobody,博赢了就彻底改变命运。
张鹏:这一波浪潮里,“敢不敢”有时真的比“能不能”更重要。
盖坤:“敢不敢”是起点,但“能不能”靠的是硬核能力。团队的技术底子必须过硬,否则喊口号没用。我们会把模型的每一层架构都讨论得非常透彻。我们也有对模型、数据量、卡数和时间进行量化拆解。虽然有风险,但我们算下来 1.0 版本在过亿级或数亿级数据量下是物理可行的。
我当时还推测 OpenAI 会为了应对 Google 而分心,优先回归语言模型大版本的迭代,这为我们留出了 6~7 月的窗口期。事后证明,OpenAI 直到 12 月才真正发布产品,我们对竞争节奏的判断基本准确。
张鹏:你把不确定性压到了极限。但技术能力之外,如何让一群觉得“目标不可能”的人真正动起来?
盖坤:意愿至关重要。当时团队展现了公司一直倡导的核心价值观:Disagree and Commit(保留意见但全力执行)。
当我刚提出目标时,屋子里几乎所有人都在反对,认为这个目标压得太死,凭什么觉得能搞定?我的方法很简单:深度拆解加上目标强压。
同时,这群同学也憋着一股劲。很多核心成员此前在公司内默默无名,他们也意识到,这一战如果打成了,就是真正的“一战成名”。这种“光脚不怕穿鞋”的斗志,在重大目标面前起到了决定性作用。
但我最看重的是他们那种“保留意见但全力执行”(Disagree and Commit)的品质。这不只是口头答应,而是先激烈讨论、表达反对,但在目标定死、进入执行阶段后,能投入 120% 的精力和意愿。我见过很多团队,虽然口头上被压服了,但在实际执行中会有巨大的动作变形。团队这种价值观的传承,在早期起到了至关重要的作用。
张鹏:1.0 的成功在于敢于率先突破壁垒,拿到了最大的红利。但在那个节点,大部分人还看不清方向,你能先发制人是因为你敢于在没有共识时做决策。那么你认为的第二个里程碑 O1,为什么如此重要?
盖坤:其实从 2024 年到 2025 年,我的 OKR 里始终贯穿着一个词:多模态。
这个想法源于我对“愿景”的倒推:如果目标是让一个人能拍出脑海中的电影,那么现在的技术还缺什么?结论很明显:语言作为沟通媒介,在视觉表达上是极其匮乏的。
比如,在拍摄中,你很难用语言精准描述一个人的长相并保证多镜头的一致性,或者描述一段极其复杂的微表情和动作细节。文字太抽象,无法还原精准的创意图景。
张鹏:也就是说,在视频创作领域,纯语言并不是一个高效的介质。
盖坤:对,所以我们要进化交互方式。我们在 2025 年 4 月推出了 MVL(多模态视觉语言)。其本质是解决输入侧的问题:虽然人类最习惯语言,但语言描述不了的细节,可以用图片、视频等其他模态的信息来补充。在我们的架构里,这些多模态信息被转化为语言流中的“特殊词(Special Tokens)”,比如“图 1 中的人是主角”,从而实现更精准的控制。
张鹏:MVL 是解决问题的架构,而 O1 则是承载这种能力的完整模型。在这个过程中,团队内部是否再次经历了不共识?
盖坤:这次不共识的时间比 1.0 时期长得多。当时算法团队面前有两个分叉,一个是无限雕花,沿着 1.0、1.5、1.6 到 2.0 的路径,不断卷文生视频、图生视频的技术指标。这个的优点是路径清晰,每提升一点指标,市场和业务都会给出正向反馈,团队能持续获得“确定性”的奖励。
另一个是升维跃迁,不再纠结于基础功能的指标精度,而是彻底改变模型的理念和输入输出方式。这里的挑战意味着我们要解决一堆从未有人解过的新问题。
张鹏:你显然是坚定支持后者的。
盖坤:是的。我坚信大模型的“涌现”能力:当你把新问题解得足够好时,它反而能带动老问题的泛化处理。
当时团队面临两个巨大的不确定性,一个是市场不确定性,没人做过这种多模态交互,用户会买账吗?另一个是技术不确定性,这种架构在技术上能否跑通?
特别是 2025 年 Nano Banana 出来时,我一方面遗憾视频领域的进度被图像领域的类似技术抢了先,另一方面也庆幸它帮我们完成了内部“统一思想”的过程,让团队意识到多模态就是唯一的终点。
但我作为掌舵者必须明确方向:基座指标要保,但解决新问题才是未来的核心。
张鹏:1.0 时的阻力来自于“不相信能做成”,而这次的阻力来自于“大家不再是光脚的了”,开始有了成本意识和声誉顾虑。
盖坤:没错。大家开始在乎技术投入产出比。
张鹏:这种痛苦也理解。绝大多数人习惯了看山顶的风景,现在你让他们下到满是迷雾的山脚重新出发,去爬一座看不见顶的山,这确实极度考验。
很多创新公司其实都会面临同样的抉择:是在现有高度上不断做工程精度的“雕花”,还是对齐大目标,一波波地翻山越岭?
盖坤:这就是可灵第二个节点比第一个节点进步的地方。1.0 时期,Sora 的 Demo 已经在前面了,技术方案(如 DiT 架构)虽然细节没公布,但学术界早有雏形,大家对“能不能做出来”没疑问,只是在赶工期。
而到了 O1、3.0 阶段,我们是在选择是平滑地走向下一个小高峰,还是穿越延绵的山脉去寻找终极目标。现在团队对于“挑战未知”已经形成了一种肌肉记忆,这种自信和沉淀非常宝贵。
张鹏:现在团队的人才流动情况如何?
盖坤:目前总体是净流入,但流入流出的动力都很强。流入动力是说来这儿挑战世界一流的技术,做真正 Great 的产品。流出动力就是高位变现。在这儿积累了足够的 Credit,去外面也能拿到极高的待遇。
这很正常,我也坦诚面对。如果目标拉得不够高,优秀的人才觉得没意思自然会走;只有不断探索无人区,才能持续吸引想做大事的人上车。
张鹏:接下来聊聊最近火出圈的 Motion Control(动作控制)。这种让 C 端用户觉得震撼、甚至产生病毒式传播的功能,是你们预判到的爆发点吗?
盖坤:在我的视角里,Motion Control 的起点依然是需求,而非单纯追求“爆款”,里面确实有赌对的成分。其实大家看到的爆版已经是我们的第二版了。
在 2.0 发布会时,我们提出了 MVL(多模态视觉语言)的理念。当时我们就在思考:除了图像、视频和语言,还有什么可以作为新模态?
张鹏:当时用户的痛点是动作不可控、容易崩坏。
盖坤:对。角色一致性问题解决得比较快,但动作控制一直是难点。我们当时就在探索如何把“动作”抽象成一种模态进行控制。
张鹏:所以,“动作”在你们看来也是一种模态。
盖坤:在我们的认知里,动作(Motion)本身就是一个模态。现在的交互还处于中间阶段,即用户需要上传一个已有的视频,让 AI 去跟随。但最终的目标是实现动作的抽象化,让用户能直接与“动作模态”交互,从而实现真正的自由创作。
张鹏:直接下令让角色“快乐地奔跑”,它就能跑出来,而不是非得找个跑步视频喂给它。
盖坤:没错。在 2.0 发布会上,我预告动作控制时,其实是把它放在多模态视觉语言(MVL)的大版图里。虽然当时业界还没完全理解这种前瞻性,但我坚信这是通往愿景的必经之路。
张鹏:这种前瞻思维往往伴随着内部的博弈。这中间有遇到什么波折吗?
盖坤:早期确实有争议。第一版动作控制的技术实现不够理想,产品入口也深,用户很难发现。
但在管理上,我坚持要把这个方向做下去。后来团队在技术上实现了突破:我们没有采用学术界主流的“火柴人”方案,而是对动作模态的定义进行了创新。
张鹏:后来是调高了内部的“奖励函数”,给团队加压了吗?
盖坤:其实是自然生长的过程,我只是提供了必要的“阳光和水”,核心工作是团队自主完成的。当模型进入测试尾期,内部的测试用例出来的结果让我们非常惊艳。那种质感已经超越了传统的 AI 生成感,甚至让我找回了早期刷短视频时(如海草舞时期)那种停不下来的感觉。
张鹏:当时你预感到它会火,那上线后的真实反馈是怎样的?
盖坤:上线后我一直在等它“爆”。我们 12 月中旬上线,等了十几天,直到 1 月初先在印度火了,接着是韩国。
有意思的是,这属于“意料之中的潜力,意料之外的路径”。我们预期的爆点是极其硬核的帅哥美女跳舞,那是我们能力最强、素质最高的点。但实际走红的点反而是小朋友和宠物的趣味舞蹈。
我们的宣发体量并不大,用户生态的自发传播带来了这次的影响。
张鹏:所以本质上,你们是通过把“动作”引入多模态版图,创造了新的可能性。那么下一步呢?除了动作,还有没有其他待开发的模态?
盖坤:动作模态还没做完整。现在的动作控制更像是一个插件或单独的功能,下一步的目标是实现真正的All-in-One(全模态大一统)——将动作模态深度抽象并融入模型。
至于未来,为了解决“场景一致性”等更高阶的需求,我们可能会对模态进行进一步的扩展和定义。
张鹏:“场景一致性”最终会对应到什么模态?
盖坤:它不一定是一个简单的模态,更像是一个综合解决方案。
目前人物一致性已经有了长足进步,但场景一致性依然是大问题。当用户要求变高时,你会发现切镜头后屋子的结构变了。虽然现在大家往往被特写镜头吸引而忽视背景,但在未来的完整叙事里,场景的一致性必须是断点。
我们可能需要通过简单的 3D 堆叠(3D Stacking)叠加精细的表观细节生成能力(Appearance Generation),让场景在不同镜头、角度和位置下保持绝对一致。这在拍摄复杂的太空片或史诗级故事片时尤为关键。
张鹏:现在业界有个调侃的观点:AI 已经很强了,但由于普通用户缺乏专业描述能力,AI 的上限很难被激发。这也解释了为什么现在很多创业公司都转向了 Pro-C(专业级个人用户),因为只有这部分人能用 AI 赚到钱并为此付费。
盖坤:其实不只是普通用户,如果没有合适的交互介质,连 Pro-C 也控制不了 AI。如果你不提供一种契合 AI 能力逻辑的交互方式,专业人士同样会觉得 AI 难以驯服。
张鹏:所以,未来的核心目标其实是重新定义交互。这种交互不再是简单的 UI/UX 调色,而是通过拆解不同的模态(如动作、表情、3D 结构等)来改变交互介质,让模型的能力真正落到产品里。这已经从纯设计变成了一个极其深度的技术课题。
盖坤:总结来说,可灵的核心能力是由三件事支撑的集合。首先是愿景驱动,这里包含终极需求和未来市场的想象力。我们所有的技术反推,起点都是为了实现“让每个人都能拍出脑海中的电影”。
其次是不设边界的技术功底,作为算法出身,我要求技术研发不设边界,但前提是“心里有谱”。你得清楚模型在技术逻辑上究竟能突破到哪一步。
最后是产品交互的同步变革:像 MVL 这种理念,本质是产品交互层面的创新。任何单方面的能力都不足以支撑现在的可灵。我需要知道模型的发展方向,更要知道如何通过重构人和 AI 之间的交互介质,来释放人的创作欲。
张鹏:你如何定义“模态”和“解决方案”?
盖坤:模态是你定义的一种新的输入/输出格式,比如文字、图像、视频、动作序列,甚至未来的 3D 建模态。解决方案是多种模态共同配合来解决一个复杂问题。
对于普通用户来说,能操作的 3D 往往是非常粗糙的。但要实现视频的一致性,精细的细节必不可少。这就是为什么我主张将模态与解决方案分层:我们可能需要用一个粗糙的 3D 模型作为骨架,叠加生图模态的表观细节,再配合文字描述,三个模态合力来解决任意视角下的场景一致性问题。
我们现在在做的 Scaling 模态,本质上是把世界的运行公式拆解得更完整。每定义一种新模态(如我们对动作控制的技术处理),就像创造一种新语言,虽然极难,但这才是真正的创新路径。
张鹏:这本质上是把世界的运行公式拆解得更完整,让工程化实现变得更容易。
盖坤:没错。但创造一个新模态(如我们对动作控制的底层处理)极难,它不是现有东西的排列组合,而是需要无数次的想象与验证,就像创造一门新语言。我们团队的路径就是沿着目标,在技术和交互上“不设边界”。大多数人是在已有模态中做选择,而我们是直接创造新模态。
张鹏:你提到了一个词——“中期愿景”。这个中期是怎么定义的?
盖坤:我不是按时间定义,而是按对世界的改变来定义。
我的中期愿景是:让每个人都能用 AI 拍出好故事、好电影。考虑到现在 AI 并没有减速,甚至在加速进化,我觉得快则一年,慢则三年,这个愿景就能实现。
目前行业里 AI 真人短剧的火爆已经验证了这一点。从最初的萌芽到如今已经出现真正赚钱的作品,这非常像一年多以前的动态漫,或者几年前短剧刚起步的状态。AI 彻底改写短剧赛道已经是确定性事件,接下来就是电影。
张鹏:这其实是平权化的过程。不需要是业界大导演,也能拥有拍出高质量作品的资源。
盖坤:对。目前大家还在赚“工具”层面的钱,但这层成熟后,真正的 ToC 机会就来了。
我一直认为:当规模化、多样性的好内容多到一定程度,全新的 AI 内容平台就会诞生。
传统内容平台靠双边网络(创作者与用户)构筑了极其稳固的护城河。新玩家很难切入,因为两端互相卡脖子。但 AI 打破了这一僵局——它提供了一种无法被垄断的新供给。
张鹏:要打开新消费,必须先有新供给。拼多多当年打淘宝也是这个逻辑。但如果仅仅是内容变了,它可能只是“第二个快手”。这种新平台会有什么本质的机制变化吗?
盖坤:我认为有两步走。第一阶段是内容质量。这是必要条件,质量必须足够高,用户才愿意看。第二阶段是互动与交互。当内容质量在赛道内拉不开差距时,新的变量就是个性化与实时互动。
在 AI 时代,这种交互非常直观。比如看一部“爽文”逻辑的短剧,主角可以是你自己。如果你能把自己的形象、性格代入其中,且 AI 能保证生成质量,这种极致的个性化消费将彻底改变人与内容的关系。
张鹏:先解决好内容的“量产”,再通过 AI 实现“主角是你自己”的深度参与。
盖坤:在 AI 生成内容的时代,游戏与影视的边界会模糊。系统不仅能“猜你喜欢”,还能让你通过互动直接影响情节走向。这背后是极致的个性化与极致的互动,这两个维度存在巨大的想象空间。
张鹏:这会催生全新的商业模式。如果用户能把自己“注入”到角色里,甚至让 AI 稍微美化一下形象,大家是非常愿意付费的。现在已有团队基于 LoRA 技术为每个人定制专属模型,这意味着“长期记忆”可以转化为不断迭代的个人模型。
盖坤:没错。当各平台的生成质量都达到临界点、拉不开差距时,个性化与可操控性就成了决定胜负的“决胜点”。
张鹏:一个新平台想要颠覆旧秩序,必须在质量、个性化、可操控性这三个维度同时撞线。否则,单纯的质量优势很快会被对手追平。
盖坤:传统内容平台(如抖音、快手)的双边网络是基于人的,带有强烈的真人社交属性。而 AI 内容平台最重要的变化在于社交属性的转化。
很多人不看好 AI 内容平台,是觉得虚拟形象无法满足真人的社交需求。但我认为需求并没有消失,而是转化为“AI 虚拟社交”或“情感陪伴”。它不再是单纯为了建立线下关系,而是像电子宠物或情感伴侣一样的直达体验。
张鹏:这个比喻很有趣,社交不再是约着去“喝咖啡”,而是跳过过程,直接为用户提供“咖啡因”。现在的爽剧就是这种逻辑——不讲究口感(画面细节),只讲究功效(心理爽感)。
盖坤:AI 真人短剧之所以能在影视赛道率先跑通,是因为爽剧用户对画面质量的容忍度较高。用户可以忍受微小的变形,只要情节足够吸引人。
这个过程是阶梯式的:
1.动态漫阶段:画面质量甚至可以“崩到飞起”,因为情节占比极大。
2.短剧阶段:咖啡因效应强,对画面的容忍度依然较大。
3.高阶影视阶段:随着技术提升,用户最终会对画面、质量、情节提出全面要求。
技术进步正在逐级解锁用户需求。当画面质量不再是障碍,规模化、多样性的好内容供给就会彻底爆发。
盖坤:视频生文模型生成的描述越精准、越细腻,训练出的文生视频模型对指令的遵循度就越高。这属于各家的核心技术壁垒,大家通常秘而不宣,但它确实决定了模型最终的“智商”。视频模型不是一个孤立的单点突破,它的多点联动效应极强。如果视频理解(标注)做得不好,生成的上限也就被锁死了。
张鹏:这事儿就像盖房子,是一层层垒上去的。如果最底层的数据和逻辑垒歪了,后面的模型表现就没法看了。
盖坤:很多人对视频大模型有误解,觉得它只是语言模型的一个应用或延伸。实际上,它是一个完全独立的各种基础模型。
它之所以比语言模型出现得晚,是因为它是一个高度复杂的系统工程,存在极强的技术依赖。语言模型更像是一个“单点”突破——通过爬取和清洗天然存在的文字数据就能起步;但视频模型不同,自然界中并不存在现成的“文本-视频”高质量对齐数据。
张鹏:也就是说,在视频领域,如果你没有技术手段自己去“造”出高质量数据,你连起步的资格都没有。这本质上不是资源问题,而是算法问题。
盖坤:对,“数据本身就是一个算法问题”。但在产品交互层,用户是看不到这层“材料科学”般的底层投入的。
一个顶尖的视频生成团队,必须在“视频理解”上有极深的沉淀。你不能只搞生成,你得先用一系列复杂的理解模型去处理、标注、生成高质量的训练素材。这绝非单点突破能搞定的。
张鹏:过去这段时间,你对于组织团队这方面有什么思考和收获吗?
盖坤:我可以分享一下我对过去二十年企业组织能力的看法,我认为它们经历了三个阶段:
首先是产品与运营驱动阶段,例如阿里早期有极致的 To B 产品和运营能力,核心是搞定供给侧。腾讯早期有极致的 To C 产品能力,在社交上构建出了网络效应。这些业务早期阶段中算法不是必要要素,所以业务逻辑中不太需要处理“算法不确定性”。
然后是算法与实验驱动阶段,这类业务(如 Google 的搜索、字节与快手的推荐)必须处理算法带来的不确定性。核心手段是 AB 实验和 bottom up 的试错机制。通过海量的实验来寻找业务的最优解。局限性在于 AB 实验是有天花板的。它适用于在有限的候选集里做低成本尝试。
最后是 Vision 与顶层意志驱动阶段,大模型时代改变了游戏规则:一次尝试的代价巨大(千万美金起步),且创新是在无限可能的空间里寻找不存在的路径(如多模态、DiT 架构)。核心能力在于由领军人物进行顶层技术与业务意志的规划。这种组织不再只依靠随机赛马,而是靠极强的 Vision(愿景)牵引,在一个茫茫多的可能性中下重注赌对方向。
张鹏:在大模型时代,由于每一次尝试的代价都极其巨大,且面对的是一个完全没有参考系的“开放世界”,传统的 A/B 测试已经失效了。
现在的竞争更像是爱因斯坦式的“思维实验”时代。谁能在脑海中先通过精准的 Vision 完成推演,谁就能在现实中获得最高的执行效率。这种 Vision 就是“魔法”,它能让团队实现“隧穿效应”,绕过对手那些你根本扛不过的肌肉和资源,直接抵达战场中心。
盖坤:没错。在短视频推荐时代,靠的是人力的试错和极高的人素效率。但在大模型这种基模时代,语境彻底变了。
我们在资源和肌肉上很难和这种推土机式的试错效率竞争。如果非要拼肌肉,那就是斯巴达 300 勇士冲向十几万大军,哪怕打出神迹,最后也只能光荣战死。我们必须变“法师”,靠领先的技术方法论和顶层规划去制造局部优势,这才是第二名赶超第一名的唯一路径。
张鹏:所以社区科学线的存在,其实就是你们在算法领域保持“法师”属性的核心?
盖坤:我一直致力于算法层面的原创创新。在社科线,我们将搜、推、广与大模型结合,这种在方法论层面的文明和底蕴,让我们在面对第一名的肌肉竞争时,能守住那块属于自己的阵地。
张鹏:听说这个房间(1405 办公室)对你们意义非凡?
盖坤:是的。所有重大的转折点决策都是在这个房间里做的。
一个是 2023 年底决定启动视频生成方向;另一个是 2024 年春节后,决定全线放弃其他方案,All-in DiT 架构,并拍板要做全球第一个可用产品。这些决策不仅需要技术判断,更需要一种能量。
张鹏:这也是中国企业最精彩的地方:不是单纯的弯道超车,而是看准时机后的“直线加速”。
张鹏:今天聊得非常畅快。过去大家看可灵,往往看的是参数和样片,我这次来就是想还原背后的那些“底层代码”——是什么在驱动你们?
盖坤:在这个时代,大家遗忘得很快,只有把产品做到极致,不断翻越一座座山丘,才能真正抵达彼岸。
本文来自微信公众号:极客公园,作者:连冉