扫码打开虎嗅APP

资讯

搜索历史

删除

完成

全部删除

数码
互联网
数码
互联网

热搜词

AI
特斯拉
百度
留学
娱乐
会员
视频
B站
诈骗

2024-11-28 13:38

AI视频巨头重磅更新，从未有过这样的视频创作方式

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO，原文标题：《AI视频巨头重磅更新，提示词都不用费劲写了，从未有过这样的视频创作方式》，题图来自：AI生成

AI视频，还能往哪个方向卷？Luma AI的答案有些与众不同。对手还在练一招一式，它却像风清扬传授独孤九剑，讲究灵活变通，如行云流水，任意所之。

Luma AI或许不如可灵、Runway知名，但论实力也在第一梯队，它的视频模型叫作Dream Machine，今年6月发布，最近进行了重磅升级，是推出产品以来声势最大的一次。

其中包括两项更新，一是发布自己的图像模型Luma Photon，将文字、图像、视频一锅端；二是打造了生成AI视频的全新工作流，我们可以像和ChatGPT聊天一样，让AI生成视频，不用对提示词字斟句酌。

对于生成视频这件事，Dream Machine首创了一种很新的方式。

聊着聊着，就把视频给生成了

打开Dream Machine，我们先看到的是“Board”，可以将它理解为无限的创意画布，在这里，我们使用自然语言，自由地生成图像或者视频。

开始一块Board，我的提示词写得非常简单：“创建一个日式悬疑少年漫画的角色。”

AI扩写了我的提示词，一次生成了4张图片，但是不行，年代不对。

没关系，再在对话框输入一句，“放在现代背景”。

AI表示懂了，又生成了4张图片，右上这张孤身走暗巷，已经接近我想要的感觉了，但仍然不够，我想要他抬起头，露出五官。

不难，继续微调，忘掉复杂的提示词，和AI打直球就可以。

右下这张不错，虽然形象幼态了点。接下来，我想让AI生成一个视频，主角在同一条巷子里从白天走到黑夜。

Dream Machine生成视频的首尾帧功能，就是为这种需求准备的——我们挑好头尾的两张图片，让AI补足中间的过程。

那么，我们只需基于满意的图片，让AI生成几张白天场景的，沟通方式还是一样的简单粗暴。最终选定的两张图片，细节略有落差，但同框也不违和。

万事俱备，只等生成视频，AI过渡得还算自然。

看到这里，你应该明白Dream Machine和其他视频工具的区别了。

其他视频工具，通常是给你一个填入提示词的文本框，然后让你设置运镜、时长等参数。设置一次，生成一次。

但Dream Machine的界面，看起来非常像和聊天机器人交互，底部是输入框，文生图、图生图、图生视频、文生视频，都可以在这里进行。

专业创作者可以继续写传统的提示词，但我们也拥有了“讲人话”的权利，压力给到AI，Dream Machine能够理解上下文，帮我们完善提示词，我们可以从一个非常粗糙的想法开始，和它边聊边改边优化。

又因为Dream Machine是无限画布形式的，我们可能在一个环节反复生成，素材都会保留下来，不会互相覆盖。

我们的思维不会局限在一段提示词、一个视频，而是像水一样流淌，更多的想法可能就在这个过程里产生了。

更可控的图片，更可控的视频

Dream Machine的全新工作流就像大树的主干，其中一些好玩且实用的功能则像枝桠，相得益彰，才能枝繁叶茂。

在其中起到关键作用的，就是Dream Machine最新发布的图像模型Luma Photon。

怎么让图片生成得更符合我们的审美？Dream Machine支持风格参考和角色参考功能。

先说风格参考，我们可以导入自己的图片，AI会将风格融入创作中。官方给出了一个例子：按蒙德里安风格，生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下，基于男性侦探的形象，参考梵高《星月夜》的风格，生成女性侦探。

二次元遇上后印象派，化学反应很奇妙。

角色参考功能，则可以通过一张图片就实现角色的一致性，让这个角色出现在更多的图片和视频里。

马斯克是行走的素材库，这样的例子太没挑战性了，我决定让甄嬛瞬移到哈利波特的世界，看场景变了之后，她还能不能气场两米八。

结果有些不好评价，看得出来是甄嬛的面容，但娘娘的长相入乡随俗，五官，尤其是眼睛，变得更像欧美人了。

其实，即使不另找图片参考，Dream Machine也可以让图片、视频不泯然于众人，这时候就要用到“头脑风暴”功能，它会根据你生成的图片，推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张，我们可以用吉卜力工作室的风格二创。宫崎骏说过，AI是对生命本身的侮辱，但现实是，吉卜力已经是AI的一个选项，尽管有形无神。

不仅如此，提示词里的一些关键词被框选了起来，能用下拉的选项替换，Dream Machine称之为“概念药丸”，我们不用自己手写提示词，一键即可更换艺术风格或画面元素。

把“吉卜力”换成“新海诚”，把“独角兽”换成“龙”，不过点击几下的功夫。

Luma Photon模型基于Luma的通用Transformer架构构建。通过开发自己的图像模型，Luma AI可以减少对Midjourney等外部图像模型的依赖，同时也能解决文生视频不稳定的问题。

当然，视频是老本行，镜头运动这种可控性功能，Dream Machine也少不了。

紫禁城的甄嬛，和霍格沃茨的甄嬛，能不能实现丝滑转场呢？用推拉镜头，画面有动感，人物没有严重的变形，可以打个80分。

视觉的思维，讲故事的方式

巧的是，前两天Runway也官宣了自己的图像生成模型Frame，和Luma更新是同一个晚上，看演示就知道他们非常注重审美，目前正逐步向Gen-3 Alpha开放资格。

Runway Frame

图片的生成质量、美学高度，以及视觉风格的一致性和可控性，越来越被视觉模型重视了。

这对创作者来说是好事，当我们用AI进行平面设计、角色设定时，其实就是在生成一个独特的世界，讲一个独特的故事。

Runway的CEO Cristóbal Valenzuela认为，Runway不是一家AI公司，而是一家媒体和娱乐公司，AI公司的时代已经结束了。

他不是在唱衰AI，恰恰相反，他认为AI是一种基础设施，真正的革命不在于技术本身，而在于它所实现的东西：新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和Luma的进化方向不谋而合。

这次更新之后，Luma AI首席执行官兼联合创始人Amit Jain，给Dream Machine下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象，他的意思其实就是，让生成图片、视频这样的视觉创作，像聊天一样简单、直观。

交互的方式影响着我们思考的方式。画布式的工作流能将脑洞可视化，记录所有的创作过程和结果，呈现生成视频的完整思路。

无限画布通常在图像模型中较为常见，比如Recraft和Ideogram的Canvas。Dream Machine的画布则更加规整，相同的提示词生成的素材和变体横向排列，不同的则竖向排列。

边聊边生成边优化的过程，会让人觉得，一个独立的小世界仿佛在画布里诞生。

先让Dream Machine用超写实电影CG风格，创造一个工业废土背景游戏的主角。

然后用环绕镜头让主角动起来，并塑造环境的空间感。

接着，我们可以再和AI聊，让AI继续生成废土世界观里室内室外的各种场景，让AI建议我们怎么将其塑造得更有末日气息。

某种程度上，这个画布就是我们个人故事的设定集。

当然，Luma AI的bug也很多，包括但不限于，用一张图片实现角色一致性的效果并不理想；积分如流水，图片和视频还是要反复抽卡；图片模型可以生成准确的英文，但中文不行……

但意思传达到位了——少谈参数，以交互为出发点，构建一个AI创作工具。

更好的视频模型，不只是有更快的生成速度、更可控的镜头运动、更独特的美学，它应该也提供更好的讲故事的方式，让文字、图像、视频都作为表达想法的工具。

Dream Machine，造梦机器。

只管去创作吧，如同Luma AI的这句话：“不需要写复杂的提示词，问就好了。”未来AI留给我们的问题，不再关于技术，而是关于我们用它构建什么。

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

拥抱“AI”

AI创投日报

频道：前沿科技

支持一下

赞赏

AI 特斯拉百度留学娱乐会员视频 B站诈骗