正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-11-28 13:38

AI视频巨头重磅更新,从未有过这样的视频创作方式

本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,原文标题:《AI视频巨头重磅更新,提示词都不用费劲写了,从未有过这样的视频创作方式》,题图来自:AI生成

文章摘要
Luma AI推出Dream Machine,简化AI视频创作。

• 🎥 Dream Machine可通过简单对话生成视频。

• 🖼️ Luma Photon图像模型增强创作风格。

• 🌟 画布式工作流记录创作过程与结果。

AI视频,还能往哪个方向卷?Luma AI的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。


Luma AI或许不如可灵、Runway知名,但论实力也在第一梯队,它的视频模型叫作Dream Machine,今年6月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。



其中包括两项更新,一是发布自己的图像模型Luma Photon,将文字、图像、视频一锅端;二是打造了生成AI视频的全新工作流,我们可以像和ChatGPT聊天一样,让AI生成视频,不用对提示词字斟句酌。


对于生成视频这件事,Dream Machine首创了一种很新的方式。


聊着聊着,就把视频给生成了


打开Dream Machine,我们先看到的是“Board”,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。


开始一块Board,我的提示词写得非常简单:“创建一个日式悬疑少年漫画的角色。”


AI扩写了我的提示词,一次生成了4张图片,但是不行,年代不对。



没关系,再在对话框输入一句,“放在现代背景”。



AI表示懂了,又生成了4张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。


不难,继续微调,忘掉复杂的提示词,和AI打直球就可以。



右下这张不错,虽然形象幼态了点。接下来,我想让AI生成一个视频,主角在同一条巷子里从白天走到黑夜。


Dream Machine生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让AI补足中间的过程。



那么,我们只需基于满意的图片,让AI生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。



万事俱备,只等生成视频,AI过渡得还算自然。



看到这里,你应该明白Dream Machine和其他视频工具的区别了。


其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。


但Dream Machine的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。



专业创作者可以继续写传统的提示词,但我们也拥有了“讲人话”的权利,压力给到AI,Dream Machine能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。


又因为Dream Machine是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。


我们的思维不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法可能就在这个过程里产生了。


更可控的图片,更可控的视频


Dream Machine的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。


在其中起到关键作用的,就是Dream Machine最新发布的图像模型Luma Photon。


怎么让图片生成得更符合我们的审美?Dream Machine支持风格参考和角色参考功能。


先说风格参考,我们可以导入自己的图片,AI会将风格融入创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。



按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。



二次元遇上后印象派,化学反应很奇妙。



角色参考功能,则可以通过一张图片就实现角色的一致性,让这个角色出现在更多的图片和视频里。



马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。



结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官,尤其是眼睛,变得更像欧美人了。



其实,即使不另找图片参考,Dream Machine也可以让图片、视频不泯然于众人,这时候就要用到“头脑风暴”功能,它会根据你生成的图片,推荐一些艺术家的风格。



就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室的风格二创。宫崎骏说过,AI是对生命本身的侮辱,但现实是,吉卜力已经是AI的一个选项,尽管有形无神。



不仅如此,提示词里的一些关键词被框选了起来,能用下拉的选项替换,Dream Machine称之为“概念药丸”,我们不用自己手写提示词,一键即可更换艺术风格或画面元素。



把“吉卜力”换成“新海诚”,把“独角兽”换成“龙”,不过点击几下的功夫。



Luma Photon模型基于Luma的通用Transformer架构构建。通过开发自己的图像模型,Luma AI可以减少对Midjourney等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。


当然,视频是老本行,镜头运动这种可控性功能,Dream Machine也少不了。



紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个80分。



视觉的思维,讲故事的方式


巧的是,前两天Runway也官宣了自己的图像生成模型Frame,和Luma更新是同一个晚上,看演示就知道他们非常注重审美,目前正逐步向Gen-3 Alpha开放资格。


Runway Frame


图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。


这对创作者来说是好事,当我们用AI进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。


Runway的CEO Cristóbal Valenzuela认为,Runway不是一家AI公司,而是一家媒体和娱乐公司,AI公司的时代已经结束了。


他不是在唱衰AI,恰恰相反,他认为AI是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和Luma的进化方向不谋而合。



这次更新之后,Luma AI首席执行官兼联合创始人Amit Jain,给Dream Machine下了一个很有趣的定义——视觉思维合作伙伴。


概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。


交互的方式影响着我们思考的方式。画布式的工作流能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。


无限画布通常在图像模型中较为常见,比如Recraft和Ideogram的Canvas。Dream Machine的画布则更加规整,相同的提示词生成的素材和变体横向排列,不同的则竖向排列。



边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。


先让Dream Machine用超写实电影CG风格,创造一个工业废土背景游戏的主角。



然后用环绕镜头让主角动起来,并塑造环境的空间感。



接着,我们可以再和AI聊,让AI继续生成废土世界观里室内室外的各种场景,让AI建议我们怎么将其塑造得更有末日气息。




某种程度上,这个画布就是我们个人故事的设定集。


当然,Luma AI的bug也很多,包括但不限于,用一张图片实现角色一致性的效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行……



但意思传达到位了——少谈参数,以交互为出发点,构建一个AI创作工具。


更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。


Dream Machine,造梦机器。



只管去创作吧,如同Luma AI的这句话:“不需要写复杂的提示词,问就好了。”未来AI留给我们的问题,不再关于技术,而是关于我们用它构建什么。


本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: