扫码打开虎嗅APP
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,原文标题:《Sora年内推出,美国大选是个重要考虑因素。OpenAI透露更多细节》,题图来自:视觉中国
Sora出世整整一个月了,它何时正式发布?
Sora将在年内正式推出,但美国大选是一个非常重要的考虑因素。
逼真和乱真的视频,非常容易被用来进行虚假信息的捏造和传播,今年全球各地将有40场大选,尤其是美国大选即将正式开打,基本上可以断定的是将由现任总统拜登对决前任总统特朗普。这一对老怨家,将给美国国内政局稳定带来诸多变数。
OpenAI首席技术官穆拉蒂(Mira Murati)接受《华尔街日报》记者斯特恩(Joanna Stern)采访时说,会采取措施谨慎发布Sora这一强大的工具。
从OpenAI的技术报告中,大致可以解读出其工作原理。许多AI研究人员,试图从技术报告后面的32篇论文中,反向工程出Sora的技术细节,最近也陆续有一些自称是有Sora效果的产品推出。这个采访揭示出Sora更多的细节:
数据:行业观察家和竞争对手,包括Runway的首席执行官,将Sora惊艳的结果归功于OpenAI庞大的计算能力和训练数据。而OpenAI最近面临版权侵权诉讼,指控这家AI公司未经允许抓取内容以训练ChatGPT。
所以,穆拉蒂在Sora训练数据的问题上,回答得非常谨慎和迟疑。“我们使用了公开可用的数据和有许可的数据。”当问到这是否包括来自YouTube、Instagram和Facebook的视频时,她强调OpenAI的政策是使用公开的和得到授权的数据,但具体哪家的数据她不愿透露。穆拉蒂后来确认,有许可的材料包括Shutterstock的内容。Shutterstock是一个全球性在线平台,主要提供版权受保护的照片、矢量图、插图、视频和音乐等多媒体素材。
生成时间:记者说OpenAI应该提供一些更符合生活中的场景:“两位职业女性,都有着棕色头发,30多岁,坐在一个光线充足的工作室里接受新闻采访。” 穆拉蒂说,这段20秒的720p分辨率视频花了几分钟时间生成。
嘴巴和头发的动作,皮夹克上的细节——这一切看起来都太真实了。目前还没有声音。OpenAI计划为Sora加入声音生产能力。
当记者将相同的提示词输入到RunwayAI视频生成器时,出来的是两个模糊、幽灵般的女性。
成本:穆拉蒂透露,目前生产Sora的视频片段的成本,远比来自公司的图像生成器Dall-E的图片更昂贵。一旦向公众发布,它将被优化以减少对计算能力的需求,因而也能让大家用得起。
破绽:在采访中,Sora的生成视频中也露出了一些破绽:一位的女士的手似乎长出了10根手指。“精确地创建手部动作的表现真的很难。”穆拉蒂解释说。
另一个视频的背景中,一辆黄色出租车变成了一辆银色轿车,说明视频模型在连续性和一致性上能延长到60秒,但并不完美。
另外一段视频中,在瓷器店中横冲直撞的野牛,地上的瓷器都是完好无损的。细节上的一致性,仍然是极大的挑战。
真伪:为了区别真伪,Sora生成的视频片段底部会出现水印,这些视频最终将包含元数据来表明它们的来源。OpenAI目前正加大力度对Sora进行红队测试,安全测试人员尝试向其发出提示,以揭示漏洞、偏见和其他有害结果。
对齐:Sora的提示词可能会遵循Dall-E的政策。例如,不能生成公众人物的图像。如记者请求生成“现任美国总统的电视新闻片段”时,Sora拒绝了这个提示词。
针对裸体视频的提示词,穆拉蒂透露,公司正在与艺术家合作,以确定在不阻碍创造力的情况下可以创建哪些“护栏和限制”。
好莱坞:Sora的推出,将会颠覆影视工业,好莱坞有大牌明星耗资数亿美元的拍摄基地和工作室计划已经取消了,不少人正在梦想着AI Netflix:输入一个提示词,就能得到你想看的完整连续剧。
这也是OpenAI延缓、谨慎推出Sora的一个原因。OpenAI已经为影视工作者提供了早期访问以进行测试。“我们希望电影行业的人和世界各地的创作者能够参与到进一步开发它的过程中来。”她说。
之所以OpenAI让Sora仍停留在研究测试阶段,是因为“我们需要在我们可以自信地广泛部署它们之前解决这些问题。”穆拉蒂说。
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究