2024-12-10 10:45

Sora到底强在哪？

本文来自微信公众号：极客公园（ID：geekpark），作者：黎诗韵，编辑：靖宇，原文标题：《OpenAI正式发布Sora，一文看懂它的文生视频功能到底强在哪？》，题图：由Sora生成

正如外界猜测的那样，在为期12天直播的第三天，OpenAI正式发布了文生视频产品Sora。

北京时间12月10日凌晨两点，Sam Altman和几位OpenAI内部员工通过直播，展示了Sora的功能和实际用例。继今年2月释出视频样片后，Sora引发了全球人工智能界热潮，此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者，今天Sora终于揭开了神秘面纱。

整体来说，Sora展示的一系列产品功能，表明其在视频生成的质量、功能的独创性、技术的复杂度等方面，都超出了目前的文生视频产品。

在文、图生视频的基础功能之上，它加入了故事板（相当于通过分镜创作自己的故事）、用文本调整原视频、不同场景视频的融合等功能（相当于给视频直接加特效），整个产品功能设计似乎都在让视频更接近创作者的自我表达、帮助他们完成一个理想的镜头故事。

当地时间12月9日晚些时候，美国以及大多数其他国家的用户可以访问官网体验Sora。它被包含在ChatGPT Plus、ChatGPT Pro的会员订阅中，无需额外付费。其中，Plus能生成最多50个高级视频，视频分辨率最高达720p、时长为5秒，而Pro则能生成最多500个高级视频，分辨率高达1080p、时长为20秒，还能去水印。

Sam Altman介绍OpenAI开发Sora有三大原因：

一是从工具性角度，OpenAI喜欢为创意人员制作工具，这对公司的文化很重要；

二是从用户交互角度，人工智能系统不能只通过文本进行交互，也应该理解并生成视频，帮助人类使用人工智能。这类似于国内大模型公司谈到的，“模型每扩展一次模态，用户渗透率就会上升。”

三则是从技术角度，这对OpenAI的AGI路线图至关重要，人工智能应该学到更多关于世界的规律，这正是所谓理解物理规律的“世界模型”。

既要用技术改变世界，也要用产品促进人类创造，这就是Sora在做的事情。

一、生成视频之外，还能分镜、加特效、无限创作

Sora最基础的，首先是文生视频、图生视频功能。

打开主界面，用户可以查看和管理所有的视频生成内容，并且切换网格视图、列表视图，以及创建文件夹和收藏夹、查看书签等。研究人员称，这个主界面设计是为了更好地帮助用户创作故事。

在主页面的中间底部，是Sora的文生视频、图生视频功能。

比如，Sam Altman先给到文字输入，“长毛猛犸象在沙漠中行走，广角镜头拍摄”。接着，需要选择视频的画面比、分辨率、时长（5~20秒），以及最终生成的视频数量（最多可生成四段以供挑选）等，才能获得生成的视频。

最终，可以看到生成的视频效果非常真实、有质感，且基本遵照了输入的指令。对于Sora视频生成效果的出色表现，或许人们是不意外的。

输入“长毛猛犸象在沙漠中行走，广角镜头拍摄”的文字后，Sora生成了四段视频|图片来源：OpenAI

但此次，Sora还发布了一系列独有的、进阶的产品功能。在极客公园看来，这些功能基本围绕视频的更准确表达，也就是通过分镜、加特效等方式，让人们能通过视频创作出一个自己想要的故事。

首先是故事板（storyboard），它被研究人员称为一种“全新的创意工具”。

从产品设计上看，它相当于按时间轴的方式，把一段故事（视频）切成了多个不同的故事卡（视频帧）。用户只需要设计和调整每张故事卡（视频帧），Sora会自动把它们补成一段流畅的故事（视频）——这很像电影里的分镜、动画的手稿，当导演画好分镜、一个片子就拍出来了，一个漫画师写好手稿、一个动画就设计出来了。

比如研究人员设想的第一个分镜是，“美丽的白鹤站在小溪中，拥有一条黄色的尾巴。”第二个分镜是，“鹤将头探入水中，并捉出一条鱼”。那他需要做的工作就是分别创建这两张故事卡（视频帧），并在两者之间设置大概五秒钟的间隔。这个间隔对Sora很重要，给了它把两组动作连起来的发挥空间。

最终，他就会得到一个完整的视频镜头，“美丽的白鹤站在小溪中，它拥有一条黄色的尾巴。接着鹤将头探入水中，并捉出一条鱼。”

通过两张故事卡（视频帧)，Sora生成了一个完整的故事（视频)|图片来源：OpenAI

更为奇妙的是，在这个故事板上，创作要素不只是故事卡，也可以是直接的图片、视频。也就是说，可以将任意的图片、视频拉到故事板上，结合故事卡，对它进行创作。

以视频为例，研究人员将上述白鹤的视频切下来导入故事板，并对其进行剪切，这就给视频的前方和后方留出了继续创作的间隙，也就是说可以有新的开头和结尾。

这带来的想象是，故事板可以无限创作下去。也就是说Sora生成的20秒视频，可以被不断地创造、剪切、创造……直至完全达到创作者心目中理想的镜头。这个过程就像一个剪辑师、导演，通过对分镜设计和镜头素材的不断生成剪辑，慢慢剪出自己心中的片子。

和真实世界不同，Sora提供的素材是无限的。而和其他的文生视频产品不同，Sora的视频是可以修改加工的。这使得它生成的视频一定会更符合用户心中的想象、创意。

这似乎正是Sora此次产品的核心思路：尽最大可能地，让生成的视频符合用户心中想要的创意。

这样一来就可以更好理解Sora的其他功能，比如可以通过文字直接修改视频、可以无缝融合两段不同的视频、可以给视频改变画风等，这相当于是直接给视频加“特效”了。而一般的文生视频产品可能需要不断地调整prompt（提示词）、不断重新生成视频。

通过调整文字，用户可以直接调整视频|图片来源：OpenAI

Sora能将两个两段视频合并为一段无缝剪辑|图片来源：OpenAI

总的来说，Sora除了在生成视频上拥有不出意料的出色表现之外，还带来了更独有的视频创作产品功能，相当于给视频加分镜、剪辑、特效。这意味着每个人都有机会创作出自己真正想要的表达，离当一个导演也更近了。

“如果你带着期望进入Sora，认为你只需要点击一个按钮就可以生成一部电影，那么我认为你的期望是错误的。”OpenAI研究人员说道。

他表示，Sora是一种工具，允许人们同时在多个地方、尝试多个想法，尝试以前完全不可能的事情，“实际上我们认为，这是创作者的超级特殊延伸。”

二、服务大众还不单独收费，还是靠底层模型的能力

作为文生视频赛道的开创者，Sora的推出时间算是最晚的。对此，OpenAI研究团队表示，为了对Sora进行广泛的部署，需要找到让模型更快、更便宜的办法。为此，研究团队做了大量的工作。

在直播中，OpenAI宣布推出Sora turbo，这是原始Sora模型的新型高端加速版本。它具有今年早些时候OpenAI在“世界模拟技术”报告中谈到的所有功能，此外还增加了从文本生成视频、动画图像和混合视频等功能。这是此次Sora产品功能背后的技术基础。

看起来，相比文字，视频的推理成本更高，但此次OpenAI并没有单独针对Sora收费。20美元/月的ChatGPT Plus会员，以及200美元/月的ChatGPT Pro会员，都可以使用Sora。

前者的权益包括最多50个高级视频、分辨率达720p，时长为5秒，后者的权益包括最多500个高级视频、无限普通视频，分辨率高达1080p、持续时间为20秒，并且下载无水印。

不同会员对Sora的使用额度｜图片来源：OpenAI

Sora对OpenAI的意义不止于此。团队发现，视频模型在大规模训练时会展现出许多有趣的新能力，使得Sora能够模拟现实世界中人、动物和环境的某些方面。“我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。”

或许正是因此，让Sora尽快被大众用起来、用数据更好地训练世界模型，对于OpenAI最终的AGI梦想如此重要。

在迭代技术的路上，也顺带推动了人类的创造。

“这个版本的Sora会犯错误，它并不完美，但它已经到了我们认为它将对增强人类创造力非常有用的地步。我们迫不及待地想看看世界将用它来做什么。”缔造它的OpenAI如此说道。

本文来自微信公众号：极客公园（ID：geekpark），作者：黎诗韵，编辑：靖宇

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

拥抱“AI”

AI创投日报

频道：前沿科技