扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,原文标题:《近距离围观Sora团队,内测艺术家谈正式版负评,AI还算不上具备创作能力》,题图来自:AI生成
北京时间12月10日,被万众期待将近一年的Sora,终于正式官宣。不再是几个demo片段,不再是Sam Altman时不时打的哑谜,而是一个完整的视频生成产品。
由于太过火爆,上线没多久就流量爆炸,OpenAI不得不暂停新用户注册,等候队伍能长到能等上一整天。
但有一群人,不仅是Sora的“老用户”,还参与着这个产品的塑造过程,见证了它的迭代与更新——他们就是不久前曾传出叫板OpenAI的Sora Alpha Artist。
为了获得创作者们的反馈和建议,也为了观察Sora在他们手上所能激发的创造力,Sora跟一群艺术家们保持着密切联系,实时收集他们的反馈,也把他们的精彩创作作为案例分享出来。
在Sora发布之际,APPSO独家对话Sora首位合作的国内艺术家Junie Lau。她是AI导演,也是Stable Diffusion首届AI短片全球冠军。作品曾获得有“AI奥斯卡”之称的Runway AI电影节银奖,并参与到了全球首部AI长片电影“Our T2 Remake”的制作当中。不久前,她作为Runway中国社群的负责人,完成了Runway中国社区的落地与推广。
在对话中,她不仅用实际的生成片段阐释了自己高强度使用Sora的感受,还分享了与Sora团队合作互动的体验。更重要的是与我们探讨了,生成式视频工具快速发展的一年多以来,走过的弯路有哪些、可能的未来在哪里。
现在还没碰到Sora的天花板
APPSO:Sora正式发布了,好看的样片你肯定见过不少,网上的负面声音是你想象过的吗?
Junie:我预想到有蛮多人会吐槽的,其实现在发的是一个turbo版本,算是一个改良版,需要的算力更少,可以让更多人使用。但是在效果上面,我个人感觉有一点不同。我把同样的prompt放进去,现在这个版本里其实是没办法跑出来的。
APPSO:是模型层面就不一样了吗?
Junie:应该是模型不一样,相当于改良了,变成现在这个模型。目前的Sora是一个阶段性的产品。
APPSO:所以它成了一个在使用上体验没那么好的东西?
Junie:那不是,这一点我要反驳一下。我的逻辑是这样的:它的可控性其实不那么强,反而就可以给出各种各样的东西。我并不会只跟它说一个我脑海里的画面,而是一个想法。我在它的基础上去拓展我的一些想法,这样的一来一往是我非常享受的一个过程。
APPSO:可以理解为抽卡的过程反而成了一个互动的过程?
Junie:我不知道是不是还要用“抽卡”这个词。我认为抽卡的概念在于,你已经有一个图片,把图片送进去然后看基于这张图片的动态,哪个更顺畅哪个更贴近。但Sora完全是基于提示词,因为我们有无限的credit,所以我疯狂点击,每一次它都能给出不一样的东西。(编者注:Sora为艺术家账户开设无上限的credit额度,不受付费计划影响)
这个是在工作流上很大的一个改变。过去的工作流是你有一个创意,先去Midjourney、Stable Diffusion或者Flux里,把想法变成图片,再放到可灵、Runway或者海螺里,把这个图片变成一个视频。现在我在Sora上不用这一套了,它直接就可以给出我想要的画面,不再需要经过之前的那一套流程。
我已经把Midjourney的套餐,从每月的36美元降档到每月10美元,因为我觉得自己不那么需要它了,Sora已经能满足很多我在艺术上的需求。
APPSO:这个变化是技术架构层面的不同,还是背后使用到的数据不同所带来的?
Junie:确实某些算法上面的东西是不太一样。我到现在,说实话,还没感觉到Sora的天花板在哪里。我平时用Runway比较多,用多了就能看出它的天花板在哪里,比如说有一些三维质感的东西,有一些特殊视效的东西,你能大概感觉到它喂了哪些数据进去。其他的视频生成工具也会给我类似的感受。但是Sora用到现在,我都还不敢说它背后的数据量有多大。
比如我做时尚类的短片比较多,Sora跑出来的镜头,像上面这个鞋子,它的质感就非常不一样。
下面是把同样的prompt放进Midjourney里面的效果。
我为什么说没有碰到它的天花板,举个例子,比如我要一个美女,一个很简单的prompt,(其他产品)可能会给出比较符合主流审美的、刻板印象的美女形象,我需要很细节地改词,才会拿到一些新的东西。
APPSO:最近比较流行的AI生成工具,得到好评都是因为“没有AI味儿”,或者味道不太重,你觉得Sora也是胜在AI味不重吗?
Junie:过去的一些AI工具,怎么说呢,是有一种塑料感,有种不真实感。但Sora不能说很“真实”,而是很“不一样”。AI生成的一个重点是让它做出不存在的东西——不存在的东西怎么说得上真实不真实呢?可是Sora会比之前我接触过的工具,更接近真实。
比如在这个视频里,这个逆光时发丝的质感,这是一个很感受化的东西。还有她背后的光影变化了,这些头发丝也跟着变化。
APPSO:像不像实拍是一个衡量标准吗?
Junie:这也是Sora和Runway不一样的地方。很多工具会“你有什么我也要有什么”,而且会纠结于用AI做传统影视在做的东西。Sora和Runway虽然也涉及传统影视,比如Runway背后的团队有华纳影业出来的成员。
但是在另外一个维度上,他们是想做一些新东西,这些创新就来自和艺术家的密切合作。艺术家在提出想要什么样的功能的时候,他们就会考虑去开发这些新功能。他们并不是要把一个生成视频,做成很像传统影视的质感,而是更愿意探索什么是AI可以实现的,怎么样可以拓展艺术表达。
APPSO:对于物理运动的表现呢?算是一个标准吗?
Junie:我觉得因人而异。对我来说Sora的优势在于,能满足我很多奇奇怪怪的艺术表达,模型的艺术性对我来说是更重要的,物理表现反而没那么重要。那肯定会有一部分人的需求就是对口型、稳定性、主体一致性等等,那可能其他的工具会更适合用来满足对可控性的追求。
和Sora合作是怎样一种体验?全员活人
APPSO:聊聊你们和Sora团队的合作吧,你们的工作模式是怎么样的?
Junie:我们有一个三百多人的大群,里面Sora的工作人员有三十多个,剩下的都是艺术家,各行各业的都有,有画画的、做建筑的等,整个氛围比较年轻。每周我们都要一起开会,还会有当周的主题挑战活动,有点像内部的电影节这样。这些挑战不是强制参与的。
我这次发出来的片子《What if,Mother》其实是给一个挑战活动做的,那个活动还没有官宣,但Sora说片子可以发出来。我在刚刚拿到Sora时就知道有这个挑战活动,但我需要从零开始学起,从最开始接触算起,到把这个片子做出来,前前后后大概花了两周的时间吧。
没有做得很好,只能说是做多少发多少,我觉得Sora还是存在一些学习成本的,不太能直接上手就用。比如人物的可控性其实是通过storyboard实现的,其中又涉及用prompt来实现对场景和人物的控制,不是简单地把图复制进去跑一跑,它需要新的工作流。
APPSO:这个片子里最花工夫的部分是什么?
Junie:后面有一段有很多水的镜头,这个当时是得一边学一边做,我当时也不确定水的物理表现能不能实现。他们内部给了很多教程,而且每个星期的周会,都会有答疑环节,也会有不同的艺术家来分享他们的工作流,他们是怎么用Sora的。
APPSO:Sora官方跟你们的来往多吗?
Junie:很多。使用上有什么问题,他们会立刻回复,比如说有个prompt跑不出来,或者画面显示不出来,发到群里,马上就会有工作人员说“你把问题发来我看一下是怎么回事”,真的是24小时技术支持。
我们的群“活人感”很强,Sora团队的技术、产品人员都在群里,平时也会跟我们聊天。Sora发布会前还有工作人员在群里说他们一直在为了发布会加班,还拍照给我们看,一群人在会议室干活。
发布会中出现的Sora产品负责人,日常在艺术家社群中非常活跃.图片来自:OpenAI官网
我觉得他们是真的把我们当自己人,很像一个大家庭。群里一般最多的还是讨论作品,会互相点赞支持。然后就是对产品的讨论。产品的人之前也有来找我,问我用起来感觉如何,有没有碰到什么问题。他们团队不大,架构很扁平,不同职能、不同部门之间不会很分散。
APPSO:有什么具体的例子吗,比如你们提出的反馈,在产品更新里会如何得到呈现?
Junie:日常的反馈还是很多的,非要说的话可能是图生视频的功能。现在这个是不太好用,之前也有艺术家提过反馈。但这里有一个版本的问题,他们可能没有在目前发布的版本上体现出改良,现在的图生视频是挺难用。
APPSO:所以当时艺术家们“反水”是怎么一回事?
Junie:其实在群里,日常也是会有一些负面反馈和批评的。但是在我的记忆里,这个艺术家(编者注:指牵头发起抗议Sora的艺术家)平时也不怎么讲话,好像突然之间就爆炸了。后续参与公开信签名的也不全是Sora的合作艺术家。
我们每周都有挑战活动嘛,有一些是有现金奖励的。但这些活动不是强制参与的,你可以参加也可以不参加,另外还会有一些线下的活动,比如见面会、社群活动这些,他们跟电影节也有合作。比如艺术家做的片子被他们发在官方社媒上,也是一种曝光和宣传的方式。这确实是一个很看个人取舍的问题吧。
AI还算不上具备创作能力
APPSO:你觉得Sora目前的功能里,最能体现艺术性的是什么?
Junie:有一个风格预设的功能,只要定义了你自己想要的风格之后,你输入什么提示词都是预设的风格。在我的短片里,前半段全部都是黑白,我用了它的八十年代的预设,然后再在提示词里说,我要一个第一人称视角,在一条街上走,然后看到些什么。在这个预设之后我跑一百条视频,都是这个黑白的风格。
Sora提供的风格预设
另外像remix,re-cut这些功能,我觉得还是改变了一些与AI工具交互的方式、创作的方式。像下面的镜头来自马上要发的新作品,也是Sora帮我把脑子里一个大概的想法完全具象化了。
不过我当时从零开始也花了不少时间搞清楚要怎么用,可能大家都需要花时间了解吧。
APPSO:从你的描述来看,Sora似乎已经具备一些创作能力了是吗?
Junie:这个创作能力具体是指什么呢?我们现在已经有比如说机器人画画、下围棋,还有很多说是AI原生、没有人工干预的创作,这个是你说的创作能力吗?
APPSO:随机组合、把元素像捏泥巴一样捏在一起只能算第一阶段的,但如果呈现出来的画面、镜头,有潜在的审美逻辑,可以算是具备一定的创作能力了。尤其是“没有AI味”,是能体现模型对于素材和语义的合理理解的。
Junie:我个人觉得,还是要有所表达,无论是用剪辑的方式,还是镜头切换的方式。表达是指我的想法,或者是我脑子里的一个疑问,(从这个疑问出发)来有所表达,这是我所定义的创造力。在这个维度上,我觉得AI还不具备。
但从现在来说,没有一个AI产品是百分百完美的,这条路大家都在探索。
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO