正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-10-09 10:22

全方位超越Sora ,Meta最新的AI视频模型到底强在哪?

本文来自微信公众号:APPSO (ID:appsolution),作者:appso,题图来自:Meta

文章摘要
Meta发布Movie Gen,提升AI视频生成能力。

• 🌟 生成效果自然逼真,支持同步音频。

• 🔧 高度自定义,满足多样化视频需求。

• 🎬 具备电影级运镜与艺术性。

这两天,视频生成模型领域因为Meta Movie Gen的发布,又炸开了锅。


行业内外感叹最多的地方,无外乎两点,一是生成效果自然逼真,还能同步生成与画面匹配的声音,很像当时Sora发布后引起的讨论和轰动;二是Meta AI的新模型自定义性很强,无论是视频画面比例,还是视频元素与细节,都能根据用户的需求进行调整。




所以,可能会引领视频生成新变革的Meta Movie Gen到底有哪些细节?这些在官网和演示视频里的惊艳效果是怎么炼成的?Meta AI的视频模型负责人Andrew Brown专门为Meta Movie Gen的理论技术做了解读:


  • Movie Gen在整体质量和一致性方面显著优于Sora。真实性和美观性考验照片写实性,Movie Gen全面获胜。


  • Meta Movie Gen是一组可以进行文本到视频生成、文本到图像生成、个性化、编辑和视频到音频生成的模型。


  • 扩展数据、计算和模型参数非常重要,将其与流匹配相结合,并转向简单的常用LLM架构(Llama),从而实现了SOTA视频生成质量。


  • 我们(Meta AI)是第一个使用Llama arch进行媒体生成的人。


  • Movie Gen是一个30B参数转换器,可生成不同宽高比和同步音频的1080p视频,最大持续时间为16秒(16fps)


  • 我们(Meta)为T2V模型提供了多阶段训练方案。T2I+T2V联合训练,导致收敛速度慢得多且质量更差。


  • 文本到视频的评估很困难。自动化指标非常差,并且与人类评估没有很好的相关性。


视频生成的“超级个体”


Meta Movie Gen首发当天,我们在第一时间报道解读了这个最新的视频生成模型,总体来说,Movie Gen具有四种功能:视频生成、个性化视频生成、精准编辑和音频生成


先看最基础的视频生成Movie Gen Video,多模态的能力使得新模型可以胜任多种不同的输入方式,用户不仅可以通过简单的文本、少许提示词生成相应的视频,还能直接把需要处理的图片放到模型里,根据文字要求,让静态的图片变成动态的视频。



提示文本:一个女孩正在海滩上奔跑,手里拿着一只风筝;她穿着牛仔短裤和一件黄色T恤;阳光照耀着她。


你甚至还能让Movie Gen帮忙重新生成或者优化一段视频。不管选择哪种输入方式,Movie Gen目前在官网的演示视频,效果都非常好,人物表情自然,画面细节到位,也能比较准确地按照提示词或文本的要求来生成相应结果。




Andrew Brown介绍道,在视频生成的过程中,扩展数据、计算和模型参数非常重要,将其与流匹配相结合,并转向简单的常用LLM架构(Llama),从而实现了SOTA视频生成质量。


而且,新模型中的T2V、个性化和编辑模型都来自相同的培训方案。在预训练期间,Meta首先训练T2I,然后训练T2V。使用该模型作为初始化,然后进行T2V后期训练,并训练个性化T2V和V2V编辑的能力。



另外,模型的训练也按照分辨率的高低进行,先是低分辨率(256px)训练,然后是高分辨率训练(768px)。Meta AI尝试联合训练T2I+T2V,但这导致收敛速度慢得多且质量比之前的还要差劲。



Movie Gen Video之所以能够做到逼真的生成结果,本质上还是因为高达30B参数转换器模型的卓越能力,这个模型能够以每秒16帧的速度生成长达16秒的视频,而且最长能够生成45秒的高质量和高保真音频。


Meta官方还在论文中透露:


这些模型可以推理物体运动、主体与物体之间的相互作用和相机运动,并且可以学习各种概念的合理运动。


这句话一共有三层意思,首先是模型本身可以几乎还原出现实世界的物理运动,以及各种“合乎常理”的物理规律,而对于用户而言,看上去“自然且逼真”就是模型技术最成功的地方。




Movie Gen Video能够准确理解物理世界的运动规律,Meta AI是下了大功夫的。该团队在数亿个视频和数十亿张图像上,对全新的模型进行了大量的预训练。通过不停的重复、学习、总结、推理和运用,Movie Gen Video才有了在官网里的优异表现。


接着,模型还能主动模仿学习专业电影的运镜、画面、蒙太奇等。也就是说,通过Movie Gen Video生成的视频,还有了类似电影拍摄的专业性和艺术性。




不过Andrew Brown提到,文本到视频的评估很困难。因为自动化指标非常差,并且与人类评估没有很好的相关性。也就是说,在视频生成模型研制的早期,生成结果和人们印象中和观察中的真实物理世界差别太大,最后Meta还是决定这种真实性的判断,完全依赖人类的评估。


我们花费了大量精力将视频评估分解为多个正交质量和对齐轴。


结果Movie Gen在和1000个提示评估集上的模型进行比较时,在质量和一致性方面获胜或全面处于同等水平。



最后,模型能在此基础上,推理和创作出接下来的内容,它就像一个专业的导演,指挥着画面里的一举一动;也像一个经验丰富的拟声师,根据视频内容或者文本提示,实时生成和画面一一对应的配乐。



烟花爆炸瞬间的音效


同步生成音频的能力,依靠的是Movie Gen Audio。这是一个13B参数转换器模型,可以接受视频输入以及可选的文本提示,以实现可控性生成与视频同步的高保真音频。




和Movie Gen Video一样,Movie Gen Audio也进行了“海量”练习,Meta AI将数百万个小时的音频参考投喂到模型的训练里。经过大量的对比总结,目前模型已经掌握了声音和画面之间的对应关系,甚至还能了解不同的bgm会带给观众哪些不同的感受。


因此在遇到有关情绪和环境的提示词时,Movie Gen Audio总能找到和画面完美契合的音乐。




同时,它可以生成环境声音、乐器背景音乐和拟音声音,在音频质量、视频到音频对齐和文本到音频对齐方面提供最先进的结果。


这使它们成为同类中最先进的模型。


虽然我们不敢就此和官方一样,下一个如此自信的定论,但无论是从官方的视频长度、画面质量,还是背景音乐的贴合程度,Movie Gen Video相较于以往的视频生成模型,有了非常明显的进步。


而且,和先前的偶像实力派Sora相比,Movie Gen在整体质量和一致性方面都有着比较明显的领先,Andrew Brown毫不掩饰地说到在这场与Sora的比赛中:


Movie Gen全面获胜。


视频编辑的“全能专家”


在Movie Gen Video和Movie Gen Audio的协同配合下,Meta AI全新的视频生成模型有了全新的能力,不过上述的进步还只是技术基础,同时具备音视频生成能力后,Meta还继续扩展了全新模型的适用范围,使它能够支持个性化视频的生成。


个性化顾名思义,就是结合用户需求,根据要求生成指定的视频内容。


虽说先前的视频模型也能做到个性化生成结果,但这个结果总是不尽人意,要么是不能更改细节,只能重新来过,要么是在连续更改细节时,画面里的其他元素无法保持一致性,总是会因为新视频的生成而多少受到点影响。




Movie Gen Video在官网的演示中,很好地展现了他们在这方面的优势。新模型不仅可以按照提示词/参考图像的要求,生成个性化的视频,还能在该视频的基础上,继续优化调整细节,并且保证其他的生成内容不受干扰,也就是“精细化修改”。


与需要专业技能或缺乏精确度的生成工具的传统工具不同,Movie Gen保留了原始内容,仅针对相关像素。


在创建保留人类身份和动作的个性化视频方面,我们的模型取得了最先进的成果。


这项功能,对于很多自媒体工作室,或有视频编辑需求的人,非常有用,它可以对更改对象进行全局修改,或者细节修改。大到根据文本重新生成整个画面,小到只改变人物的发色、眼镜的样式等。比如可以通过模型来消除背景当中的无关杂物。




或者给原视频换上新的背景,不管是样式还是颜色,都能随时改变,而且还可以把白天秒变成黑夜。


另外Movie Gen Video还能针对很多细节作出细微的调整,在保证视频构图、画整体不变的同时,改变人物的衣服颜色、眼镜佩戴样式,主体穿着和宠物毛色等。


比如去除视频里的无关杂物、更换画面背景样式,增加视频细节,改变主体衣着颜色等方面,都是他的强项。



不过这还只是一种畅想,因为Movie Gen Video目前只支持1080P、16秒、每秒16帧的高清长视频,或者最长45秒的高质量和高保真音频。这样的画面分辨率以及视频长度,对于一个有创作需求的个体或公司来说,好像都不太够用。


但这种技术的突破,使得AI拥有了对视频文件无级调节的编辑能力,个性化定制、精准调节,加上Movie Gen Audio打开了视频配音的大门,Movie Gen Video虽然要等到明年才会和公众正式见面,但以目前官方的演示结果来看,它真有可能为视频、影视和AI行业注入新的动力,甚至带来一场新的变革。


包括Movie Gen Video在内的最新、最前沿的工具,正在试图打破这种AI在视频生成领域的刻板印象,虽然目前以他们的能力,这一天的到来还有很久。


对于视频生成模型来说,一开始很难直接影响,甚至触及到普通人的日常生活,直到有了某部由AI创作的电影,可能才会在新鲜感上,引起大众的注意。当下用AI做出的电影、番剧、动漫,多少都有些画面不真实、动作很违和的缺点。



Meta AI也在官网表示,随着模型技术的改善与发展,他们将会与电影制作人和创作者密切合作,整合他们的反馈。当下,无论是Runway、Sora,还是最新的Meta AI,都在飞速发展,起码和一年前的生成效果比较起来,可以看到肉眼可见的进步。


AI技术对人们生活的影响,不一定会在第一时间显现出来,当大家还都在探讨AI“有什么用”的时候,那它对于大多数人的最大意义,就是多了一个好用的工具、一个好玩儿的玩具:


无论一个人是希望在好莱坞大展身手的电影制作人,还是喜欢为观众制作视频的创作者,我们都相信每个人都应该有机会使用有助于提高创造力的工具。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: