AI语言模型大行其道，今年的CVPR，彻底变了？-虎嗅网

本文来自微信公众号：硅星人Pro （ID：gh_c0bb185caa8d），作者：周一笑，题图来自：视觉中国

文章摘要

本文介绍了CVPR 2024大会的重要变化和趋势，包括论文数量增加、何恺明缺席等情况。

• 💡 今年CVPR接收的论文数量创下历史新高，反映了计算机视觉研究兴趣的增加

• 🌟 图像和视频合成与生成成为研究热点，语言视觉结合论文数量增加两倍

• 🏆 CVPR 2024最佳论文候选涵盖了多领域研究，展示了计算机视觉领域的新趋势

国际计算机视觉与模式识别会议（CVPR）2024即将于6月17至21日在美国西雅图召开，CVPR是计算机视觉乃至人工智能领域最具学术影响力的顶级会议之一，其论文评选结果受到学术界的广泛关注，对行业创新产生重要影响。

CV领域的大神何恺明缺席本次CVPR引发关注，他提出的ResNet成为计算机视觉领域的流行架构，相关论文的引用数量突破20万次，曾经多次获得CVPR最佳论文奖。硅星人在检索CVPR2024接受论文列表之后，发现的确没有何恺明参与的论文入选，这也是2009年后何恺明首次缺席CVPR接受论文列表。

此前有消息称，今年CVPR拒绝了何恺明参与的三篇论文，其中不乏广受关注的高质量论文。何恺明在今年的CVPR提交期限里并没有公开的作为一作参与的重要论文，一些和自己的学生或者其他业界同行协作的论文，没有出现在CVPR的列表里。

比如《Return of Unconditional Generation:A Self-supervised Representation Generation Method》，提出了一种名为表示条件生成（RCG）的框架，旨在解决不依赖人工标注标签而直接建模数据分布的无条件生成问题；以及《Deconstructing Denoising Diffusion Models for Self-Supervised Learning》，解构扩散模型，提出一个高度简化的新架构l-DAE，其核心思想是将低维潜在空间与噪声相结合，从而提高了模型自监督表示学习的能力。前者由何恺明在MIT的博士生黎天鸿为一作，后者的合著作者中有纽约大学计算机科学助理教授，DiT的作者谢赛宁。

另一个有意思的现象是，搜索CVPR的论文列表可以发现，黎天鸿和谢赛宁参与的其他多个论文有入选今年的CVPR。

何恺明一向不以论文多产著称，不过这次的缺席也让人感受到今年CVPR的变化。

从关注度上和论文类型上来看，今年的CVPR确实处在某种转折点。

获得空前关注

今年CVPR的规模空前盛大，2024年CVPR共收到11532篇论文投稿，比去年增加了25%。其中，有2719篇论文被接受，录取率保持在23.6%。投稿数量的增加反映了计算机视觉研究兴趣的日益增加。

作者人数也有所增加。今年，超过10000位作者参与了被接受的论文撰写，去年为8457人。有趣的是，今年只有三分之一的作者在2023年有论文被接受，这表明有大量新研究人员的涌入。

合作仍然是大会的关键。学术界贡献了39.4%的论文，但产业与学术界的合作也不容忽视，贡献了27.6%的论文。谷歌是最大的产业贡献方，有52篇论文，其次是腾讯和Meta，各有35篇论文。

尽管在CVPR这类会议上，产业界的影响力很大，但大学依旧是研究活动的主要推动力。顶尖大学每年平均被接受的论文数量超过了30篇。根据统计数据，今年表现最佳的大学是清华大学，共有88篇研究论文被接受。其次是浙江大学的63篇和上海交通大学的57篇。

从地理上看，美国和中国是主要的贡献者，占了近70%的论文。其他重要的贡献者包括德国、韩国、英国和新加坡。

图像和视频合成与生成最热门，语言视觉结合论文数量增加两倍

具体来看，根据乔治亚理工学院计算机学院对CVPR 2024录用数据的统计分析，论文主题涵盖36个主题领域。

在大模型时代，CVPR 2024展示了计算机视觉领域的新趋势。图像和视频合成与生成成为最热门的研究主题，共有329篇论文。其次是三维视觉和人体行为识别，分别有276篇和202篇论文。视觉、语言与语言推理也备受关注，表明学界对多模态信息融合和高层次语义理解的重视。此外，底层视觉、识别任务、机器人与AI等领域的研究也取得了显著进展。

而根据数据AI模型研发商LatticeFlow对论文标题的分析，关于大语言模型的热潮也转移到了CVPR，结合语言和视觉的研究论文增加了两倍，例如：

OneLLM:One Framework to Align All Modalities with Language
Language Models as Black-Box Optimizers for Vision-Language Models
Inversion-Free Image Editing with Language-Guided Diffusion Models
Towards Better Vision-Inspired Vision-Language Models
A Vision Check-up for Language Models

遵循同样的趋势，用于生成视觉应用的扩散模型也增加了三倍以上。这与行业的发展方向也是一致的，朝向可以理解和生成视觉、语言甚至音频的大型多模态模型。

24强竞逐CVPR Award，五分之一来自中国高校

根据官方公布的最新信息，324篇（11.9%）的论文因其高质量和潜在影响而被审计委员会选为highlights，90篇（3.3%）论文被选为oral talks（优秀论文），oral当中的24篇将竞争本届最佳论文。

CVPR 2024的最佳论文候选名单覆盖了丰富多样的研究领域，包括视觉与图形、单视图3D重建、视觉语言推理、基于医学和物理学的视觉、自主导航和自我中心视觉、3D技术、行动和动作识别、数据和评估、多视角与传感器融合、低样本/无监督/半监督学习、地位视觉和遥感、图像与视频合成以及多模态学习。

其中，除了入围的Transformer、分割模型等，扩散模型方向也有两篇入围，一篇来自苏黎世联邦理工学院的魔改微调，一篇来自英伟达的性能优化。以下是24篇入围论文的主题、标题及摘要概览，你认为谁能摘得最终桂冠？

以下为我们整理的入围论文的基本信息，供大家参考：

根据CVPR的官方日程，最终的奖项将在当地时间6月19日早上公布。届时我们也会带来一手的CVPR 2024现场直击的内容，敬请期待。

本文来自微信公众号：硅星人Pro （ID：gh_c0bb185caa8d），作者：周一笑

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

AI语言模型大行其道，今年的CVPR，彻底变了？

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜