OpenAI用Sora打脸AI顶会CVPR-虎嗅网

本文来自微信公众号：飞总聊IT（ID：feiitworld），作者：飞总本尊，题图来自：视觉中国

这几天关于Sora的传闻很多。

其中有这样一件事情，非常的有意思，飞总给大家八卦一下。

故事从下面这个小哥说起：

截图自：LinkedIn@William Peebles

这个名字叫做William Peebles的人，是2023年5月才毕业的计算机PhD。他毕业于加州大学伯克利分校，研究方向是AI。

这个小哥的LinkedIn上的介绍很简单：

截图自：LinkedIn@William Peebles

没错，这几天火到出圈，火出天际的Sora，这位小哥就是领导者之一。

毕竟Co-leading Sora这样的话，不是一般人可以随便写上去的。

而这位小哥，2023年5月才PhD毕业。2024年2月，Sora已经火爆全网，彻底出圈了。

这年纪，这成就，这火爆程度。我们是应该说OpenAI确实不拘一格使用人才呢，还是应该说这个小哥太牛了。

不过我相信，再牛，如果换个公司，比如微软什么的，这个小哥想一毕业就领导Sora这么牛的项目，简直无法想象。

上面肯定有一堆堆的资深人士，绝对不可能给资源给显卡让这个小哥如此轻松地霍霍。

那么问题来了，为什么我标题上说OpenAI用Sora打脸CVPR呢？

这个故事要从一篇论文说起。论文标题是“Scalable Diffusion Models with Transformers”。这篇论文发表在ICCV 2023上。

ICCV也是个很不错的会议，在计算机视觉领域和CVPR比起来，差距不大。

而根据网上传出来的消息，这篇论文首先投稿的是CVPR 2023，被评委们以创新性不足给拒绝了。之后论文才转投了ICCV 2023。

更重要的是，这篇被CVPR认为创新性不足的论文，正是今天名声大噪的Sora的底层技术。

当然，毫无疑问，Sora肯定做了各种各样的改进。但是其底层的技术基于Diffusion Transformer这个基本事实是无法改变的。

小哥William Peebles肯定是Diffusion Transformer领域的大牛，毕竟这个领域就是他在做。他在PhD期间一直都在做。

那么问题来了，被计算机视觉顶级会议CVPR认为缺乏创新性的技术，OpenAI却给小哥大量的资源，让其做出了text to video的Sora项目。

到底是OpenAI的负责人们傻，还是CVPR的评委们傻呢？

你要按照今天的逻辑去看，显然Sora名声大噪，而CVPR评委说的缺乏创新性貌似确实有点问题。

可是事情不能这么看，我们现在是以上帝视角，去拿着已经出结果的未来检视当初。

而CVPR的评委审查论文，以及OpenAI决定砸钱砸显卡做Sora这个项目的时候，这个技术的未来到底是怎么样，是未知的。

显然，OpenAI和CVPR的评委们，做了截然不同的预测。前者觉得值得砸钱，后者觉得没什么创新性。

但是问题来了，学术圈的“创新性”，到底意义有多大？到底是学术圈自娱自乐的产物，还是真的有现实的意义。

要这么来说的话，GPT-1和GPT-2的表现没有好于其他的模型，但是GPT的模型规模上来以后，显然就展现出了令人吃惊的成果。

而在GPT-1和GPT-2都不怎么样的情况下，OpenAI依然坚持GPT的技术路线，这是为什么？

我以前读过PhD，写过论文，后来也混产业。我发现的一个问题是，学术圈里面自娱自乐的东西很多，有些研究，到了工业级，就毫无意义了。

反之亦然，工业界的人会看可行性、看规模效应怎么样，在审稿论文的时候，和学术界的人之间也会吵翻天。

屁股决定脑袋，真的是永恒不变的真理，无论是数据库圈子，还是AI圈子。

当然，今天我们要问的不是屁股和脑袋的问题。而是客观上，到底谁更靠谱。是CVPR审稿的教授们？还是OpenAI的研究人员？

不管怎么样，现在看起来，OpenAI对技术路线的判断，确实在AI领域，当之无愧的王炸。CVPR被打脸，也是真的惨。

本文来自微信公众号：飞总聊IT（ID：feiitworld），作者：飞总本尊

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

OpenAI用Sora打脸AI顶会CVPR