可灵可能真要赶超Sora了

主理人：

快手更新视频生成大模型可灵

7月6日，快手在2024年世界人工智能大会（WAIC）上发布了旗下视频生成大模型可灵的更新。

具体更新包括：

高画质版、首尾帧控制、镜头控制等新功能。

可灵大模型还同时发布了集成了文生图、文生视频相关能力的Web端产品，发布当日即上线，限时免费。

创作者单次生成的文生视频时长增加至10秒。

快手视觉生成与互动中心负责人万鹏飞介绍说，新版可灵在运动生成、生成时长、物理规律、视频画质、指令响应、图生视频、视频可控性等七个方向实现了能力升级。

可灵的能力升级中，最突出的是首尾帧控制，即保持AI生成视频的流畅和连贯性。从目前的AI视频生成技术来看，要低成本、高效实现首尾帧控制很难。

首先，首尾帧需要在时序上保持一致，避免出现不自然的跳跃。其次，首尾帧的内容必须连贯，特别是循环视频中，首尾帧需要无缝衔接。此外，视频中的运动要平滑过渡，背景和细节也要一致，这些都对模型的精度提出了很高的要求。最后，生成高质量的视频还需要大量的计算资源和复杂的模型架构。

可灵在模型设计方面，从2D VAE到3D VAE进行视频的高效压缩，通过隐空间编解码提高了数据处理的效率。其网络基础架构从U-Net扩展到Transformer，并验证了scaling性质，确保模型在大规模数据处理时依然保持高性能。

对于时序信息的建模，模型采用了从1D到3D全注意力机制，极大地扩展了时空感受野，能够更精准地捕捉视频中的时序变化。同时，模型还引入了专用的LLM（大型语言模型），增强了文本扩展及编码能力，确保模型在生成视频时能够准确理解和响应文本输入。

在WAIC的发布现场，快手公布了可灵上线至今的一些数据：可灵大模型上线一个月以来，累计申请用户数50万+，开通用户数30万+，生成视频数700万。

如今，距离Sora发布已有近5个月，各家关注AI视频、图像生成的公司都陆续发布了自己的视频生成模型。

快手可灵提供深度技术支持的原创奇幻短剧《山海奇镜之劈波斩浪》

就在WAIC大会开幕两周前，Runway刚刚更新了视频生成模型Gen3，生成速度和一致性比前几代模型有显著提升，还能进行精确的关键帧控制，并且能够表现丰富的人物动作和情感，每个视频最多可生成10秒。国内AI公司生数科技和智象未来（HiDream.ai）也分别发布了对标Sora的Dit架构视频模型。

目前关注AI视频生成赛道的人很多，但真正在赛跑的玩家数量还比较有限。不过，AI视频生成给用户带来的感受更加直观，在如今的快娱乐、短视频时代，很可能比大语言模型更快找到直给的快速落地场景。

AI燎原

一群来自虎嗅科技组的同学，制作了这个源流。我们想以观察者、亲历者视角，对 AI，尤其是 GenAI 进行祛魅——发布、提炼我们看到的 AI 进展，助你一手掌握 AI 的技术与行业动态，并一同迎接 AGI 的到来。