扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
我们该如何判断AI是否具备真正的科研能力?基准测试是衡量AI科研能力的“标准化考卷”,但现有测试表明,AI虽在记忆和解题上表现卓越,却难以应对科研中无标准答案的探索和创新,这揭示了科研能力的核心在于探索未知,而非重复已知。 ## 1. 衡量AI科研能力的“考卷”:基准测试 基准测试是给AI量身定制的标准化考卷,用统一的问题和评分标准测试其能力。科学界已推出数十套测试,试图评估AI在复杂科研流程中的真实水平。 ## 2. 四套主流基准测试揭示的AI短板 ### HLE人类终极考试:考记忆而非科研 HLE测试用2500道前沿领域的偏门问题考察AI。谷歌Gemini3DeepThink在2026年3月将正确率刷新至48.4%,但科学界质疑其仅测试了冷僻知识点的记忆力,而非提出新问题的科研创新能力。 ### FrontierScience:从背知识到考推理 OpenAI推出的这套700道题的测试分为奥赛题和博士级开放研究题。GPT-5.2在奥赛题上正确率达77%,但在开放研究题上仅得25分,暴露了AI擅长有标准答案的问题,面对真实科研中的开放问题则能力断崖式下跌。 ### SDE科学发现评估:考完整项目执行 SDE测试让AI完成8个真实未发表科研项目拆解出的1125个连续任务。结果发现,顶尖AI模型在零散难题上表现尚可,但在需要串联完整科研流程的创新任务上集体卡壳,因为它们无法处理训练数据中未曾出现过的全新问题。 ### LABBench2:测科研全流程能力 LABBench2用近1900个任务测试从想法到论文的全流程。AI在简单信息检索上表现不错,但一旦需要交叉比对数据库、解读论文图表等复杂任务,表现便一落千丈,表明其信息整合能力严重不足。 ## 3. 基准测试的真正意义与核心启示 好的基准测试为整个领域指明方向,如同ImageNet挑战赛催生了深度学习革命。现有测试共同照出了AI的核心短板:只会背知识、解有答案的题、完成零散任务和模仿已有研究,而不会探索未知、推进完整项目或实现从0到1的创新。 科研的灵魂是探索未知,这恰恰是AI目前最核心的短板,也是人类科研能力的核心价值。对于学生和科研人员而言,死记硬背和套模板最易被AI替代,而提出问题的能力、探索的勇气和从0到1的创新思维,才是不会被替代的科研本质。
2026-03-21 21:38

如何测试人工智能的科研能力| 能写论文、解奥赛,就真的会做科研了吗| 一起读顶刊-2026

本文来自微信公众号: 生态学时空 ,作者:复旦赵斌,原文标题:《如何测试人工智能的科研能力 | 能写论文、解奥赛,就真的会做科研了吗 | 一起读顶刊-2026》


我们到底该怎么判断,AI是真的具备了独立做科研的能力,还是只是在背答案、套模板?


给AI出的科研能力考卷,到底是什么?


想判断AI的能力,行业里通用的方法是基准测试(Benchmark)。你可以把它理解成一套给AI量身定制的标准化考卷:用统一的问题、统一的评分标准,测试AI的某项能力,再给不同模型排个高低,就像我们的高考、四六级考试。


比如我们熟悉的ImageNet挑战赛,就是计算机视觉领域的经典基准测试,它直接催生了2012年的AlexNet模型,拉开了深度学习时代的大幕。


但给AI出科研能力考卷,难度要大得多。


科学研究是一套极其复杂的完整流程:查文献、提新问题、设计实验、分析数据、修正假设、撰写论文……每一个环节都需要不同的能力,甚至需要在未知领域里试错、探索。


到底该考什么?是考知识点储备,还是考逻辑推理?是考单步解题,还是考完整的项目执行?


围绕这个问题,科学界吵翻了天,也在过去一年里,推出了数十套面向科研的AI基准测试。其中最具代表性的四套考卷,彻底撕开了AI在科研领域的真实面目。


四套主流科研考卷,测出了AI的真实水平


1.HLE人类终极考试:考最偏的知识点,不代表会做科研


这是目前最出圈、也最受AI公司追捧的一套基准测试。它的设计逻辑很简单:既然要考科研能力,那就考只有深耕某一领域十几年的专家,才能答出来的题。HLE题库里有2500道题,全部来自人类知识的最前沿,比如:


  • 蜂鸟的籽骨能支撑多少对腱?


  • 自然界中磷的同素异形体有多少种颜色?


这套考卷一发布,就成了AI公司的炫技竞技场:


  • 刚发布时,OpenAI的o1模型以8.3%的正确率,拿下了最高分;


  • 2026年3月,谷歌直接宣布,旗下的科学推理模型Gemini3DeepThink,把正确率刷新到了48.4%。


但很快,科学界就提出了尖锐的质疑:这套考卷,测的根本不是科研能力,只是冷僻知识点的记忆力。


很简单的道理,知道世界上有多少种颜色的磷同素异形体,对科研创新有什么帮助吗?


《自然》配发的社论也一针见血:我们真正需要追问的是,到底什么样的基准测试,才能真正测出AI的专家级科研思维,而不是它记住了多少冷门知识。


毕竟,科研的核心,是要提出新的问题,找到新的答案。


2.FrontierScience:从背知识到考推理,却依然没触达科研的核心


针对HLE的争议,OpenAI在2025年12月推出了自己的科研基准测试FrontierScience,核心目标就是:不考记忆力,专门考推理能力。


这套700道题的考卷,分成了两个部分:


  • 第一部分是数理化生奥赛题:基于简短的场景,有明确的标准答案,专门测试AI的纯粹逻辑推理能力,比如判断一系列化学反应的最终产物;


  • 第二部分是博士级开放研究题:没有标准答案,完全是真实科研里会遇到的问题,比如分析修饰某个分子,会通过哪些方式影响它的性质,和博士生日常要解决的科研难题几乎一致。


测试结果,直接暴露了AI最核心的短板:OpenAI自家的GPT-5.2,在奥赛题上拿到了77%的正确率,已经接近顶尖竞赛选手的水平;但在开放研究题上,只拿到了25%的分数。


这个巨大的分数鸿沟,恰恰戳中了AI的本质:它非常擅长解有标准答案的题,但面对科研里最核心的开放、未知、没有标准答案的问题,能力会断崖式下跌。


而真实的科研,都是没有标准答案的。我们做研究,本质上就是在无人区里找路,在无数种可能性里,找到那个最接近真相的方向——这恰恰是这套测试里,AI最不擅长的事。


3.SDE科学发现评估:用真实的未发表项目,测AI会不会完整做研究


如果说前两套考卷,还停留在答题的层面,那这个研究中推出的SDE基准测试,直接把考试改成了真实项目实操。


它的设计逻辑,完全贴合真实的科研工作流:科研不是做零散的单选题,而是从头到尾完成一个完整的项目。


团队找来了8个正在进行、数据从未发表的真实科研项目,拆成了43个研究场景、1125个连续任务,让AI来完成。比如其中一个任务,就是让AI设计合成路线,把一个目标分子,拆解成可商用、易获取的原料,一步步合成出来。


给AI打分时,不只看单个任务的答案对不对,更核心的是看它能不能串联起完整的科研流程:提出假设、设计方案、验证结果、修正思路,一步步推进研究。


这套测试,得出了两个颠覆认知的结论:


  1. AI会答题,不代表会做科研。很多模型能答对零散的难题,但面对完整的项目,表现一塌糊涂。科研里,知道整体该往哪个方向走,永远比记住某个分子的具体性质重要得多;


  2. 顶尖AI模型,都卡在了同样的难题上。OpenAI、Anthropic、xAI、DeepSeek的头部模型,在最难的创新型任务上集体卡壳。背后的原因很简单:它们的训练数据都来自已发表的科研文献,面对真正没人做过的创新问题,就集体失去了方向。


这也解释了为什么我们常说AI能辅助科研,但不能替代科研:它能在人类划定的框架里,帮我们优化细节、提高效率,但面对真正的从0到1的创新,它依然无能为力。


4.LABBench2:测从idea到发论文的全流程,AI连文献都读不明白


前面三套测试,大多聚焦在科研的核心推理环节,而生物领域的LABBench2基准测试,直接把考试范围扩大到了从一个想法,到一篇完整论文的科研全流程。


这套测试有近1900个任务,专门考验AI的自主执行能力:能不能独立完成文献检索、多数据库交叉比对、论文里的图表和数据解读、基因序列构建等等,这些科研里最基础、最日常的工作。


测试结果可以说是喜忧参半:


  • 顶尖大语言模型,在检索专利和实验论文全文这件事上,表现得相当不错;


  • 但只要任务稍微复杂一点,比如交叉比对多个数据库的信息、从密密麻麻的论文里定位并解读特定的图表和数据,AI就会频繁出错,表现一落千丈。


FutureHouse旗下的研究人员直言:想要做出真正的AI科学家,首先要解决的,就是AI的信息检索和整合能力。连文献里的数据都读不明白、找不准,更别说独立做完整的科研项目了。


基准测试的真正意义


好的基准测试,不是为了给选手排名,而是给整个领域指明方向。文章里举了一个最经典的例子:ImageNet大规模视觉识别挑战赛。十几年前,这个挑战赛给计算机视觉领域,定下了图像识别准确率这个核心目标。2012年,AlexNet在这个挑战赛上夺冠,直接推动了卷积神经网络的爆发式发展,而这正是现代AI的基石。


现在这些五花八门的科研基准测试,正在做同样的事。它们像一面面镜子,清晰地照出了AI在科研领域的短板:


  • 只会背知识点,不会用知识;


  • 只会解有标准答案的题,不会探索未知的开放问题;


  • 只会完成零散的任务,不会推进完整的、多步骤的科研项目;


  • 只会模仿已有的研究,不会做出真正的从0到1的创新。


而这些短板,就是AIforScience领域未来的发展方向。我们正在见证的,不只是AI能力的一次次刷新,更是人类对科研本质的一次次重新思考。


到底什么才是真正的科研能力?


我们从小接受的教育,总让我们觉得:科研能力强,就是懂的知识多、会解题、考试分数高。但这篇文章里的所有测试结果,都在推翻这个认知。


AI记住了人类有史以来几乎所有已发表的科研文献,知识储备远超任何一个人类科学家;它解奥赛题的能力,超过了绝大多数顶尖学生;它写论文的速度,更是人类无法比拟的。但为什么它依然做不好真正的科研?


因为科研的灵魂,不是解答已知,而是探索未知。


  • 它不是记住已有的知识点,而是能从已知里,提出一个没人问过的新问题;


  • 它不是解有标准答案的难题,而是在无数次试错里,找到一条没人走过的新路;


  • 它不是完成零散的任务,而是能在不确定性里,锚定一个大方向,一步步把一个想法,变成一个完整的研究成果;


  • 它不是模仿已有的范式,而是能打破旧框架,建立新的理论、新的方法。


这,就是AI目前最核心的短板,也是人类科研能力最核心的价值。


对于我们普通人,尤其是正在读书、做科研的大学生来说,这个认知有着极强的现实意义:现在很多人沉迷于用AI写作业、凑论文,觉得AI能替代自己的学习,甚至担心未来会被AI抢了科研的饭碗。但你要知道,死记硬背、套模板、应付考试,这些恰恰是AI最擅长的事,也是最容易被替代的事。


而真正不会被替代的,是你提出问题的能力、探索未知的勇气、在试错里迭代的耐心,以及完成从0到1创新的思维。这些,才是科研的本质,也是教育的终极意义。


解读文献:


  • https://doi.org/10.1038/science.aeh1091

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜