2024-07-06

AI燎原 AI 现场

可灵可能真要赶超Sora了

主理人:
快手更新视频生成大模型可灵

 

7月6日,快手在2024年世界人工智能大会(WAIC)上发布了旗下视频生成大模型可灵的更新。

 

具体更新包括:

高画质版、首尾帧控制、镜头控制等新功能。

可灵大模型还同时发布了集成了文生图、文生视频相关能力的Web端产品,发布当日即上线,限时免费。

创作者单次生成的文生视频时长增加至10秒。

 

快手视觉生成与互动中心负责人万鹏飞介绍说,新版可灵在运动生成、生成时长、物理规律、视频画质、指令响应、图生视频、视频可控性等七个方向实现了能力升级。

 

可灵的能力升级中,最突出的是首尾帧控制,即保持AI生成视频的流畅和连贯性。从目前的AI视频生成技术来看,要低成本、高效实现首尾帧控制很难。

 

首先,首尾帧需要在时序上保持一致,避免出现不自然的跳跃。其次,首尾帧的内容必须连贯,特别是循环视频中,首尾帧需要无缝衔接。此外,视频中的运动要平滑过渡,背景和细节也要一致,这些都对模型的精度提出了很高的要求。最后,生成高质量的视频还需要大量的计算资源和复杂的模型架构。

 

 

可灵在模型设计方面,从2D VAE到3D VAE进行视频的高效压缩,通过隐空间编解码提高了数据处理的效率。其网络基础架构从U-Net扩展到Transformer,并验证了scaling性质,确保模型在大规模数据处理时依然保持高性能。

 

对于时序信息的建模,模型采用了从1D到3D全注意力机制,极大地扩展了时空感受野,能够更精准地捕捉视频中的时序变化。同时,模型还引入了专用的LLM(大型语言模型),增强了文本扩展及编码能力,确保模型在生成视频时能够准确理解和响应文本输入。

 

在WAIC的发布现场,快手公布了可灵上线至今的一些数据:可灵大模型上线一个月以来,累计申请用户数50万+,开通用户数30万+,生成视频数700万。

 

如今,距离Sora发布已有近5个月,各家关注AI视频、图像生成的公司都陆续发布了自己的视频生成模型。

 

快手可灵提供深度技术支持的原创奇幻短剧《山海奇镜之劈波斩浪》

 

就在WAIC大会开幕两周前,Runway刚刚更新了视频生成模型Gen3,生成速度和一致性比前几代模型有显著提升,还能进行精确的关键帧控制,并且能够表现丰富的人物动作和情感,每个视频最多可生成10秒。国内AI公司生数科技和智象未来(HiDream.ai)也分别发布了对标Sora的Dit架构视频模型。

 

目前关注AI视频生成赛道的人很多,但真正在赛跑的玩家数量还比较有限。不过,AI视频生成给用户带来的感受更加直观,在如今的快娱乐、短视频时代,很可能比大语言模型更快找到直给的快速落地场景。

AI燎原

一群来自虎嗅科技组的同学,制作了这个源流。我们想以观察者、亲历者视角,对 AI,尤其是 GenAI 进行祛魅——发布、提炼我们看到的 AI 进展,助你一手掌握 AI 的技术与行业动态,并一同迎接 AGI 的到来。