扫码打开虎嗅APP
本文来自微信公众号: 生态学时空 ,作者:复旦赵斌,原文标题:《如何测试人工智能的科研能力 | 能写论文、解奥赛,就真的会做科研了吗 | 一起读顶刊-2026》
我们到底该怎么判断,AI是真的具备了独立做科研的能力,还是只是在背答案、套模板?
想判断AI的能力,行业里通用的方法是基准测试(Benchmark)。你可以把它理解成一套给AI量身定制的标准化考卷:用统一的问题、统一的评分标准,测试AI的某项能力,再给不同模型排个高低,就像我们的高考、四六级考试。
比如我们熟悉的ImageNet挑战赛,就是计算机视觉领域的经典基准测试,它直接催生了2012年的AlexNet模型,拉开了深度学习时代的大幕。
但给AI出科研能力考卷,难度要大得多。
科学研究是一套极其复杂的完整流程:查文献、提新问题、设计实验、分析数据、修正假设、撰写论文……每一个环节都需要不同的能力,甚至需要在未知领域里试错、探索。
到底该考什么?是考知识点储备,还是考逻辑推理?是考单步解题,还是考完整的项目执行?
围绕这个问题,科学界吵翻了天,也在过去一年里,推出了数十套面向科研的AI基准测试。其中最具代表性的四套考卷,彻底撕开了AI在科研领域的真实面目。
这是目前最出圈、也最受AI公司追捧的一套基准测试。它的设计逻辑很简单:既然要考科研能力,那就考只有深耕某一领域十几年的专家,才能答出来的题。HLE题库里有2500道题,全部来自人类知识的最前沿,比如:
蜂鸟的籽骨能支撑多少对腱?
自然界中磷的同素异形体有多少种颜色?
这套考卷一发布,就成了AI公司的炫技竞技场:
刚发布时,OpenAI的o1模型以8.3%的正确率,拿下了最高分;
2026年3月,谷歌直接宣布,旗下的科学推理模型Gemini3DeepThink,把正确率刷新到了48.4%。
但很快,科学界就提出了尖锐的质疑:这套考卷,测的根本不是科研能力,只是冷僻知识点的记忆力。
很简单的道理,知道世界上有多少种颜色的磷同素异形体,对科研创新有什么帮助吗?
《自然》配发的社论也一针见血:我们真正需要追问的是,到底什么样的基准测试,才能真正测出AI的专家级科研思维,而不是它记住了多少冷门知识。
毕竟,科研的核心,是要提出新的问题,找到新的答案。
2.FrontierScience:从背知识到考推理,却依然没触达科研的核心
针对HLE的争议,OpenAI在2025年12月推出了自己的科研基准测试FrontierScience,核心目标就是:不考记忆力,专门考推理能力。
这套700道题的考卷,分成了两个部分:
第一部分是数理化生奥赛题:基于简短的场景,有明确的标准答案,专门测试AI的纯粹逻辑推理能力,比如判断一系列化学反应的最终产物;
第二部分是博士级开放研究题:没有标准答案,完全是真实科研里会遇到的问题,比如分析修饰某个分子,会通过哪些方式影响它的性质,和博士生日常要解决的科研难题几乎一致。
测试结果,直接暴露了AI最核心的短板:OpenAI自家的GPT-5.2,在奥赛题上拿到了77%的正确率,已经接近顶尖竞赛选手的水平;但在开放研究题上,只拿到了25%的分数。
这个巨大的分数鸿沟,恰恰戳中了AI的本质:它非常擅长解有标准答案的题,但面对科研里最核心的开放、未知、没有标准答案的问题,能力会断崖式下跌。
而真实的科研,都是没有标准答案的。我们做研究,本质上就是在无人区里找路,在无数种可能性里,找到那个最接近真相的方向——这恰恰是这套测试里,AI最不擅长的事。
3.SDE科学发现评估:用真实的未发表项目,测AI会不会完整做研究
如果说前两套考卷,还停留在答题的层面,那这个研究中推出的SDE基准测试,直接把考试改成了真实项目实操。
它的设计逻辑,完全贴合真实的科研工作流:科研不是做零散的单选题,而是从头到尾完成一个完整的项目。
团队找来了8个正在进行、数据从未发表的真实科研项目,拆成了43个研究场景、1125个连续任务,让AI来完成。比如其中一个任务,就是让AI设计合成路线,把一个目标分子,拆解成可商用、易获取的原料,一步步合成出来。
给AI打分时,不只看单个任务的答案对不对,更核心的是看它能不能串联起完整的科研流程:提出假设、设计方案、验证结果、修正思路,一步步推进研究。
这套测试,得出了两个颠覆认知的结论:
AI会答题,不代表会做科研。很多模型能答对零散的难题,但面对完整的项目,表现一塌糊涂。科研里,知道整体该往哪个方向走,永远比记住某个分子的具体性质重要得多;
顶尖AI模型,都卡在了同样的难题上。OpenAI、Anthropic、xAI、DeepSeek的头部模型,在最难的创新型任务上集体卡壳。背后的原因很简单:它们的训练数据都来自已发表的科研文献,面对真正没人做过的创新问题,就集体失去了方向。
这也解释了为什么我们常说AI能辅助科研,但不能替代科研:它能在人类划定的框架里,帮我们优化细节、提高效率,但面对真正的从0到1的创新,它依然无能为力。
4.LABBench2:测从idea到发论文的全流程,AI连文献都读不明白
前面三套测试,大多聚焦在科研的核心推理环节,而生物领域的LABBench2基准测试,直接把考试范围扩大到了从一个想法,到一篇完整论文的科研全流程。
这套测试有近1900个任务,专门考验AI的自主执行能力:能不能独立完成文献检索、多数据库交叉比对、论文里的图表和数据解读、基因序列构建等等,这些科研里最基础、最日常的工作。
测试结果可以说是喜忧参半:
顶尖大语言模型,在检索专利和实验论文全文这件事上,表现得相当不错;
但只要任务稍微复杂一点,比如交叉比对多个数据库的信息、从密密麻麻的论文里定位并解读特定的图表和数据,AI就会频繁出错,表现一落千丈。
FutureHouse旗下的研究人员直言:想要做出真正的AI科学家,首先要解决的,就是AI的信息检索和整合能力。连文献里的数据都读不明白、找不准,更别说独立做完整的科研项目了。
好的基准测试,不是为了给选手排名,而是给整个领域指明方向。文章里举了一个最经典的例子:ImageNet大规模视觉识别挑战赛。十几年前,这个挑战赛给计算机视觉领域,定下了图像识别准确率这个核心目标。2012年,AlexNet在这个挑战赛上夺冠,直接推动了卷积神经网络的爆发式发展,而这正是现代AI的基石。
现在这些五花八门的科研基准测试,正在做同样的事。它们像一面面镜子,清晰地照出了AI在科研领域的短板:
只会背知识点,不会用知识;
只会解有标准答案的题,不会探索未知的开放问题;
只会完成零散的任务,不会推进完整的、多步骤的科研项目;
只会模仿已有的研究,不会做出真正的从0到1的创新。
而这些短板,就是AIforScience领域未来的发展方向。我们正在见证的,不只是AI能力的一次次刷新,更是人类对科研本质的一次次重新思考。
我们从小接受的教育,总让我们觉得:科研能力强,就是懂的知识多、会解题、考试分数高。但这篇文章里的所有测试结果,都在推翻这个认知。
AI记住了人类有史以来几乎所有已发表的科研文献,知识储备远超任何一个人类科学家;它解奥赛题的能力,超过了绝大多数顶尖学生;它写论文的速度,更是人类无法比拟的。但为什么它依然做不好真正的科研?
因为科研的灵魂,不是解答已知,而是探索未知。
它不是记住已有的知识点,而是能从已知里,提出一个没人问过的新问题;
它不是解有标准答案的难题,而是在无数次试错里,找到一条没人走过的新路;
它不是完成零散的任务,而是能在不确定性里,锚定一个大方向,一步步把一个想法,变成一个完整的研究成果;
它不是模仿已有的范式,而是能打破旧框架,建立新的理论、新的方法。
这,就是AI目前最核心的短板,也是人类科研能力最核心的价值。
对于我们普通人,尤其是正在读书、做科研的大学生来说,这个认知有着极强的现实意义:现在很多人沉迷于用AI写作业、凑论文,觉得AI能替代自己的学习,甚至担心未来会被AI抢了科研的饭碗。但你要知道,死记硬背、套模板、应付考试,这些恰恰是AI最擅长的事,也是最容易被替代的事。
而真正不会被替代的,是你提出问题的能力、探索未知的勇气、在试错里迭代的耐心,以及完成从0到1创新的思维。这些,才是科研的本质,也是教育的终极意义。
解读文献:
https://doi.org/10.1038/science.aeh1091