如何测试人工智能的科研能力| 能写论文、解奥赛，就真的会做科研了吗| 一起读顶刊-2026-虎嗅网

本文来自微信公众号：生态学时空，作者：复旦赵斌，原文标题：《如何测试人工智能的科研能力 | 能写论文、解奥赛，就真的会做科研了吗 | 一起读顶刊-2026》

我们到底该怎么判断，AI是真的具备了独立做科研的能力，还是只是在背答案、套模板？

给AI出的科研能力考卷，到底是什么？

想判断AI的能力，行业里通用的方法是基准测试（Benchmark）。你可以把它理解成一套给AI量身定制的标准化考卷：用统一的问题、统一的评分标准，测试AI的某项能力，再给不同模型排个高低，就像我们的高考、四六级考试。

比如我们熟悉的ImageNet挑战赛，就是计算机视觉领域的经典基准测试，它直接催生了2012年的AlexNet模型，拉开了深度学习时代的大幕。

但给AI出科研能力考卷，难度要大得多。

科学研究是一套极其复杂的完整流程：查文献、提新问题、设计实验、分析数据、修正假设、撰写论文……每一个环节都需要不同的能力，甚至需要在未知领域里试错、探索。

到底该考什么？是考知识点储备，还是考逻辑推理？是考单步解题，还是考完整的项目执行？

围绕这个问题，科学界吵翻了天，也在过去一年里，推出了数十套面向科研的AI基准测试。其中最具代表性的四套考卷，彻底撕开了AI在科研领域的真实面目。

四套主流科研考卷，测出了AI的真实水平

1.HLE人类终极考试：考最偏的知识点，不代表会做科研

这是目前最出圈、也最受AI公司追捧的一套基准测试。它的设计逻辑很简单：既然要考科研能力，那就考只有深耕某一领域十几年的专家，才能答出来的题。HLE题库里有2500道题，全部来自人类知识的最前沿，比如：

蜂鸟的籽骨能支撑多少对腱？
自然界中磷的同素异形体有多少种颜色？

这套考卷一发布，就成了AI公司的炫技竞技场：

刚发布时，OpenAI的o1模型以8.3%的正确率，拿下了最高分；
2026年3月，谷歌直接宣布，旗下的科学推理模型Gemini3DeepThink，把正确率刷新到了48.4%。

但很快，科学界就提出了尖锐的质疑：这套考卷，测的根本不是科研能力，只是冷僻知识点的记忆力。

很简单的道理，知道世界上有多少种颜色的磷同素异形体，对科研创新有什么帮助吗？

《自然》配发的社论也一针见血：我们真正需要追问的是，到底什么样的基准测试，才能真正测出AI的专家级科研思维，而不是它记住了多少冷门知识。

毕竟，科研的核心，是要提出新的问题，找到新的答案。

2.FrontierScience：从背知识到考推理，却依然没触达科研的核心

针对HLE的争议，OpenAI在2025年12月推出了自己的科研基准测试FrontierScience，核心目标就是：不考记忆力，专门考推理能力。

这套700道题的考卷，分成了两个部分：

第一部分是数理化生奥赛题：基于简短的场景，有明确的标准答案，专门测试AI的纯粹逻辑推理能力，比如判断一系列化学反应的最终产物；
第二部分是博士级开放研究题：没有标准答案，完全是真实科研里会遇到的问题，比如分析修饰某个分子，会通过哪些方式影响它的性质，和博士生日常要解决的科研难题几乎一致。

测试结果，直接暴露了AI最核心的短板：OpenAI自家的GPT-5.2，在奥赛题上拿到了77%的正确率，已经接近顶尖竞赛选手的水平；但在开放研究题上，只拿到了25%的分数。

这个巨大的分数鸿沟，恰恰戳中了AI的本质：它非常擅长解有标准答案的题，但面对科研里最核心的开放、未知、没有标准答案的问题，能力会断崖式下跌。

而真实的科研，都是没有标准答案的。我们做研究，本质上就是在无人区里找路，在无数种可能性里，找到那个最接近真相的方向——这恰恰是这套测试里，AI最不擅长的事。

3.SDE科学发现评估：用真实的未发表项目，测AI会不会完整做研究

如果说前两套考卷，还停留在答题的层面，那这个研究中推出的SDE基准测试，直接把考试改成了真实项目实操。

它的设计逻辑，完全贴合真实的科研工作流：科研不是做零散的单选题，而是从头到尾完成一个完整的项目。

团队找来了8个正在进行、数据从未发表的真实科研项目，拆成了43个研究场景、1125个连续任务，让AI来完成。比如其中一个任务，就是让AI设计合成路线，把一个目标分子，拆解成可商用、易获取的原料，一步步合成出来。

给AI打分时，不只看单个任务的答案对不对，更核心的是看它能不能串联起完整的科研流程：提出假设、设计方案、验证结果、修正思路，一步步推进研究。

这套测试，得出了两个颠覆认知的结论：

AI会答题，不代表会做科研。很多模型能答对零散的难题，但面对完整的项目，表现一塌糊涂。科研里，知道整体该往哪个方向走，永远比记住某个分子的具体性质重要得多；
顶尖AI模型，都卡在了同样的难题上。OpenAI、Anthropic、xAI、DeepSeek的头部模型，在最难的创新型任务上集体卡壳。背后的原因很简单：它们的训练数据都来自已发表的科研文献，面对真正没人做过的创新问题，就集体失去了方向。

这也解释了为什么我们常说AI能辅助科研，但不能替代科研：它能在人类划定的框架里，帮我们优化细节、提高效率，但面对真正的从0到1的创新，它依然无能为力。

4.LABBench2：测从idea到发论文的全流程，AI连文献都读不明白

前面三套测试，大多聚焦在科研的核心推理环节，而生物领域的LABBench2基准测试，直接把考试范围扩大到了从一个想法，到一篇完整论文的科研全流程。

这套测试有近1900个任务，专门考验AI的自主执行能力：能不能独立完成文献检索、多数据库交叉比对、论文里的图表和数据解读、基因序列构建等等，这些科研里最基础、最日常的工作。

测试结果可以说是喜忧参半：

顶尖大语言模型，在检索专利和实验论文全文这件事上，表现得相当不错；
但只要任务稍微复杂一点，比如交叉比对多个数据库的信息、从密密麻麻的论文里定位并解读特定的图表和数据，AI就会频繁出错，表现一落千丈。

FutureHouse旗下的研究人员直言：想要做出真正的AI科学家，首先要解决的，就是AI的信息检索和整合能力。连文献里的数据都读不明白、找不准，更别说独立做完整的科研项目了。

基准测试的真正意义

好的基准测试，不是为了给选手排名，而是给整个领域指明方向。文章里举了一个最经典的例子：ImageNet大规模视觉识别挑战赛。十几年前，这个挑战赛给计算机视觉领域，定下了图像识别准确率这个核心目标。2012年，AlexNet在这个挑战赛上夺冠，直接推动了卷积神经网络的爆发式发展，而这正是现代AI的基石。

现在这些五花八门的科研基准测试，正在做同样的事。它们像一面面镜子，清晰地照出了AI在科研领域的短板：

只会背知识点，不会用知识；
只会解有标准答案的题，不会探索未知的开放问题；
只会完成零散的任务，不会推进完整的、多步骤的科研项目；
只会模仿已有的研究，不会做出真正的从0到1的创新。

而这些短板，就是AIforScience领域未来的发展方向。我们正在见证的，不只是AI能力的一次次刷新，更是人类对科研本质的一次次重新思考。

到底什么才是真正的科研能力？

我们从小接受的教育，总让我们觉得：科研能力强，就是懂的知识多、会解题、考试分数高。但这篇文章里的所有测试结果，都在推翻这个认知。

AI记住了人类有史以来几乎所有已发表的科研文献，知识储备远超任何一个人类科学家；它解奥赛题的能力，超过了绝大多数顶尖学生；它写论文的速度，更是人类无法比拟的。但为什么它依然做不好真正的科研？

因为科研的灵魂，不是解答已知，而是探索未知。

它不是记住已有的知识点，而是能从已知里，提出一个没人问过的新问题；
它不是解有标准答案的难题，而是在无数次试错里，找到一条没人走过的新路；
它不是完成零散的任务，而是能在不确定性里，锚定一个大方向，一步步把一个想法，变成一个完整的研究成果；
它不是模仿已有的范式，而是能打破旧框架，建立新的理论、新的方法。

这，就是AI目前最核心的短板，也是人类科研能力最核心的价值。

对于我们普通人，尤其是正在读书、做科研的大学生来说，这个认知有着极强的现实意义：现在很多人沉迷于用AI写作业、凑论文，觉得AI能替代自己的学习，甚至担心未来会被AI抢了科研的饭碗。但你要知道，死记硬背、套模板、应付考试，这些恰恰是AI最擅长的事，也是最容易被替代的事。

而真正不会被替代的，是你提出问题的能力、探索未知的勇气、在试错里迭代的耐心，以及完成从0到1创新的思维。这些，才是科研的本质，也是教育的终极意义。

解读文献：

https://doi.org/10.1038/science.aeh1091

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

如何测试人工智能的科研能力| 能写论文、解奥赛，就真的会做科研了吗| 一起读顶刊-2026

给AI出的科研能力考卷，到底是什么？

四套主流科研考卷，测出了AI的真实水平

1.HLE人类终极考试：考最偏的知识点，不代表会做科研

基准测试的真正意义

到底什么才是真正的科研能力？

大 家 都 在 搜

大家都在搜