2026-07-03 11:54

AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议

author_path 生态学时空©
头图

本文来自微信公众号: 生态学时空 ,作者:复旦赵斌


很显然,马车夫思维是认知结构问题,而非利益动机问题。马车夫不是不敢看到,而是真的看不到,问题出在三个递进的环节中:


(1)类比惯性(入口):第一次接触新事物时,大脑自动调用最熟悉的框架去理解它。汽车被理解为"能运送更多东西的工具"——只看到增量改进,看不到替代性颠覆。


(2)手段-目的倒置(过程):一旦套上旧框架,当前的手段就被焊死为事情的本质组成部分。马匹从当前不得已的运力手段变成了运输的本质要素。当手段变成目的,养更多马就成了理所当然的终极追求。


(3)目标固化(终局):目标被锁定在旧范式内部,永远无法指向范式之外。他不会问运输的本质是什么,因为在他的世界里,运输和马就是同一个东西。


这三者是递进关系:类比惯性是入口,一旦启动,手段-目的倒置和目标固化就是必然展开。


谁是今天的"马车夫"?


目前的一个典型场景:


学生用AI写论文


→学校用AI检测


→学生用AI反检测


→学校升级检测


→……


这是一场在旧范式内部的军备竞赛,所有参与者都在用AI优化"写论文-查重"这个旧博弈,而没有人问:在AI时代,写论文究竟还在验证什么?


在AI出现之前,写论文承载了多重功能:知识掌握度验证、思维组织能力验证、信息检索与整合能力、表达能力、诚信与自律。这五个功能被打包在一篇论文里,天经地义——就像马车夫认为运输和马是同一个东西。


AI究竟击穿了什么?——DIKW金字塔的视角


理解AI对学术的根本冲击,我们首先需要澄清"知识"的层次结构:


  • 数据(Data):能放进二维表、多维表里的结构化内容,本身不产生价值,只是原始素材。


  • 信息(Information):对数据加工汇总后,有上下文、有意义的内容。


  • 知识(Knowledge):信息结合前因后果、和已有认知碰撞后形成的体系,是能解释现象的规律。


  • 智慧(Wisdom):加入人文思考、价值判断后,能指导行动和改造世界的认知。


我们现在可以看到,AI已经碾压式地完成了"数据→信息"这一层。在"信息→知识"这一层,AI可以模拟,它能给出看起来像"规律"的总结,但没有真正的因果理解。问题在于,对大多数学生来说,AI的模拟已经足以以假乱真,他们不需要自己去和已有认知碰撞,就能产出一个"看起来是知识"的东西。


这带来的深层危机不是学生升不到知识层面,而是AI让升到知识层面这件事变得可以绕过去。而一旦绕过去成为习惯,他们就连什么叫升到知识层面都感知不到了。就像马车夫不是不想理解汽车,而是他的认知框架里根本没有"无马运输"这个类别。


登记报告(Registered Reports):AI时代的新范式


传统论文为什么是"马车"


传统学术论文把"提出好问题"和"执行验证过程"打包在一起评审,且评审重心落在"执行过程是否严谨"上。当AI可以伪装这个执行过程时,传统论文就丧失了区分"真知识"和"AI模拟的知识"的能力。


在传统模式下,研究者面对的激励结构是:


  • 好问题+漂亮数据→发表✅


  • 好问题+不漂亮数据→拒稿❌


  • 坏问题+漂亮数据→也可能发表✅


数据漂亮程度>问题好坏程度。这逼出了一条黑暗路径:先收集数据,再倒推一个"看起来能解释这些数据"的问题。造假是这种倒推模式的必然副产品。


登记报告的结构性优势


登记报告把评审重心前移到AI最不擅长的环节:在没有数据之前,你能不能提出一个真正有价值的问题,并设计一个能检验它的逻辑结构?这一步需要因果直觉、理论洞见、对领域空白的判断——恰恰是DIKW中"信息→知识"那一步里,人类独占的部分。其核心流程是:


  1. 第一阶段:研究者提出研究问题和检验方案→同行评审(评审问题和方案的质量)→通过后,论文原则上被接受。


  2. 第二阶段:研究者按注册方案执行研究→如实报告结果→同行评审(评审执行是否忠实、报告是否完整)→发表。


传统论文验证的是"你会不会执行",而AI正在让"执行"贬值。登记报告验证的是"你会不会提问",而"提问"正是AI时代人类学术价值的最后高地。


登记报告杜绝了造假


这不是因为道德水平提高了,而是因为造假不再带来任何发表优势:


  • 好问题+合理方案→第一阶段发表✅


  • 按方案执行+如实报告结果→第二阶段发表✅


  • 数据不支持假设→仍然发表,因为是"诚实汇报"✅


  • 数据造假→无意义,因为结果好不好都不影响发表✅


这就像汽车消灭了"马会受惊"的问题,不是因为马变得更勇敢了,而是因为根本不需要马了。造假动机被销毁,出于激励结构的釜底抽薪。


零结果也能发表的时候,科学才更真实


目前我们在学术文献中看到的几乎全是正向结果。但实际上数据是有偏的——大量的零结果因为"数据不够漂亮"被塞进抽屉永不发表。这就是p-hacking和文件抽屉效应(file drawer problem),我们今天不展开说。


零结果的公开,将带来三个层次的深远影响:


第一层:校正文献生态的真相。元分析不再需要花70%的精力去"猜"文件抽屉里有多少未发表的零结果——它从一个"侦探工作"变成"会计工作"。


第二层:提高科学的进步速度。当零结果进入公共记录,整个领域可以从他人的失败中学习,而不是每个实验室都独立重复踩同样的坑。科学进步速度不取决于聪明人多快找到正确路径,而取决于所有人多快排除错误路径。


第三层:重新定义研究者的信用。一个研究者的履历里,10篇正向结果+15篇零结果——这说明这个人专注、诚实、在持续深耕一个难题。而20篇全是正向结果的履历,在新范式下反而可能变为一个需要被审视的信号。


提问者与执行者


当"提出问题"和"用数据证实问题"的评审被分开,一个根本问题就浮现出来:这两种贡献是否由同一批人完成?三种可能的模式:


  • 模式A(上下游协作):提问者设计方案→执行者施工。这里有个潜在的问题,就是执行者很可能丧失学术判断力,沦为流水线工人。


  • 模式B(双向循环):同一批人既提问也执行,上一轮执行的"意外发现"成为下一轮提问的种子,零结果中藏着新问题的线索,只有亲手执行过的人才能捕捉到。


  • 模式C(AI执行,人提问):极端的劳动分工。人类研究者的唯一价值是提问。


显然,模式B是最优的,它承认"提问"和"执行"不是分离的工种,而是同一个研究者认知循环的两个阶段。意外发现的捕捉能力不是碰运气,而是需要系统训练的核心学术能力。


然而,我们今天的博士训练体系与模式B有结构性冲突:


旧范式训练模式B需要的训练
怎么把数据讲成漂亮的故事怎么从失败数据里读出新问题的线索
怎么在前人文献里找到"gap"填上怎么在自己的零结果里找到前人从未意识到的问题
怎么捍卫结论不被审稿人驳倒怎么自己推翻自己的假设,并记录推翻过程
一套方法吃一辈子方法服务于问题,问题变则方法变


这需要更根本的制度变革——远超出发表制度本身。


制度变革的连环锁:从哪一环节启动?


学术制度的各环节是连环绑定的:


发表制度→基金分配制度→博士培养制度→导师激励机制→大学排名与资源配置。


我们从哪个环节起步,而且改一个就得改全部。这套锁链需要同时松动,但基金分配制度是最佳的杠杆支点。钱流到哪里,行为就流向哪里。重新定义"什么研究值得资助",是撬动整个系统的阿基米德点。


新范式的基金评审


维度旧范式(马车)新范式(汽车)
申请书核心"我猜测X会导致Y,我有初步证据""我有一个值得检验的问题,这是我的检验方案"
前期基础已发表的漂亮正向结果已发表的"提问记录"——包括零结果和由此衍生的新问题
可行性论证"我预实验成功了,所以能做成""我的方案逻辑自洽,无论结果正负都有学术价值"
评审标准"这个假说成立的可能性大吗?""这个问题重要吗?这个方案能干净地检验它吗?"
结题标准是否发表了正向发现的论文是否按注册方案完成了检验,并公开了完整数据与结果


基金预算的执行情况与数据真实性、以及被资助问题获得社区支持的程度,构成新范式下对基金执行的核心考察维度。


评审专家问题:核心是改评审表格,不是改人


有人可能会有疑问,规则改这么大,去哪儿找那么多评审专家?但是,大家不要忘了,任何范式转移都不是突然换了一波新人。量子力学刚出来的时候,评审它的也是经典物理学训练出来的老专家。关键不是评审专家的年龄和出身,而是评审标准是否被重新定义。


如果一个老专家拿到一份申请书,表格上不是让他判断"这个假说成立的可能性大吗",而是问"这个问题如果被干净地检验了,无论结果正负,你会关注结果吗"——他回答这个问题时,调用的就不是"我看不看好这个猜测",而是"这个领域是否真的缺这一块"。前者是赌,后者是判。老专家完全有能力做后者。所以,基金申请书和评审表格的格式设计本身就定义了什么是"好研究"。改评审表格,比改人更有效。


那么,现在有个需要博弈的点是,优先资助什么样的项目?是选最好的问题?还是选最不该继续被忽视的问题?


新范式基金评审的最大难点在于:"这个问题重要吗"怎么判断?旧范式有一个偷懒的办法——看申请人过去的正向发现来判断他眼光好不好。新范式失去了这个拐杖。一个大胆的替代方案是:研究社群对"最不该继续被忽视的问题"进行公开评分,高票问题进入基金优先支持池。核心逻辑是反转——不是正向评选最好的问题,而是负面筛选被长期忽略但应该被检验的问题。


入选问题需要满足双重过滤:客观上被忽视+主观上被社区认为不该继续被忽视。


其实,AI是可以自动检测被忽视的三类信号的:


信号A:引文网络的断头路(dead-end citation chains)。一篇高被引论文提出了一个假说,所有后续引用都在引用这个假说当作"已被证实的背景",但没有一篇论文直接检验了它。引文网络的拓扑结构可以自动检测——这个节点被大量指向,但它的"证据基础"节点是空的,像一个地基悬空的摩天大楼。


信号B:系统性综述里的证据缺口声明(evidence gap statements)。每篇系统性综述在结尾都有现有文献的局限性和未来研究方向。这些声明本身就是被忽视问题的索引。如果被系统性地提取并汇总,就构成了一张由作者自己认领的空白地图。


信号C:Meta-analysis的异质性残差。当元分析发现不同研究的效应量差异巨大(高I²),但没有任何调节变量能解释这种差异——这就是一个"被忽视的调节变量"的信号。数据告诉你有什么东西在起作用,但没有人研究过它是什么。


这三类信号的共同特点:每个人都默认这不是空白,这是正常的。


资金分配机制:Pull认领+Push悬赏


Pull模式(研究者认领空白):基金机构在"空白地图"上标注已认证的高票问题。研究者自行选择认领:"我认领问题#347,这是我的检验方案。"基金按登记报告逻辑评审方案,通过即拨款。


Push模式(基金悬赏空白):对于被社区高票选出但无人认领的空白,基金机构主动设"悬赏"——加大资助额度,放宽时间限制,降低前期基础要求。信号越强(被忽视程度越高+社区认为越不该继续忽视),悬赏金额越高。


两者可在同一个基金池中并存:先开放认领,一定期限内无人认领的高票空白自动转为悬赏。这样能同时发挥研究者自驱力和资金价格信号的导向作用。


谁先动?——国家级科研基金会


候选推动者包括私人基金会、开放科学社区、顶尖大学,但国家级科研基金会是最有力的第一推动者:资金体量够大,制度合法性天然,一旦跑通可以快速放大。


具体路径:拿出基金总额的3%-5%设立类似登记报告的专项子基金,完全按新规则运行——空白地图自动检测、社区投票排序、先注册方案后拨款、零结果照样结题。两条线并行,让结果说话。


凭什么新范式更值,可以在五年后用硬指标回答。五年后,新范式需要用可对比的硬指标证明自己:


  • 可复现率:新范式资助的研究,可复现率能否从旧范式的~30%显著提升?


  • 资金效率:每万元投入产出的"被干净检验的明确问题数" vs.旧范式每万元产出的"正向发现论文数"。


  • 下游衍生研究:零结果是否真的引发了新问题的跟进,而非发表后沉没。


  • 数据真实性:基金预算使用的规范性、研究数据的完整公开度。


旧范式在有效的新范式面前没有竞争力


当上述指标清晰地展示出新范式的优越性时,旧范式自然落败——不需要制度强制,只需要公平竞争。真正的制度设计要求不是"如何打败旧范式",而是防止新范式被旧范式吸收成一块遮羞布——即防止其核心逻辑(注册方案、零结果结题、社区投票)被一项项妥协掉,最后只剩下一个"登记报告"标签贴在旧评审流程上。这需要试点基金保持机构独立性和规则自治。


我现在就可以想到旧范式的捍卫者会有什么样的质疑,我这里也准备好了答案。


旧范式的捍卫者会有一个看似有力的反驳:可复现率高了,但新范式产出的都是小型检验。旧范式虽然有噪音,但我们产出的是突破性发现。我的回应是:"突破性发现"里有多少是真正经得起复现的?30%的可复现率意味着70%的所谓"大发现"可能是噪音。拿噪音当突破,这不叫产出。大规模复现项目(Open Science Collaboration,Many Labs,SCORE等)正在为这个数字提供不断增长的弹药。更根本的是,"突破性发现"这个概念本身就是旧范式的叙事框架。在新范式里,科学进步不来自某个天才的灵光一现,而来自社区系统性地缩小未知空间的速度。"缩小未知空间的速度"才是新范式的核心度量,不是"突破性发现的数量"。


所以,新范式下的伟大科学家画像也随之改写:一位伟大的科学家,不是那个找到正确答案的人,而是那个让这个领域再也无法假装某个问题不存在的人。他可能一辈子没有提出过一个正确答案,但他提出的正确问题被后来者不断检验,他登记的方案成了社区的公共基础设施。


有人会问:如果"找到答案的终局性爽感"没有了,最优秀的年轻人会不会觉得新范式"不过瘾"?


答案是:荣誉感和审美感受是范式塑造的产物,不是人性常量。中世纪骑士的最高荣誉是马上比武的胜利,今天没人觉得那比一个诺贝尔奖更荣耀。找到答案的爽感被旧范式神圣化了,不是因为它天然更爽,而是因为旧范式把它供奉在荣誉体系的顶点。当新范式把提出不可忽视的问题供奉在新顶点上,年轻人自然会开始品味提问的爽感。荣誉会迁移。叙事会改写。教科书会把"第一个提出这个问题的人"印成黑体字。


马车和马车夫现在还有,可能永远不会消失,但它们的主流地位已经变了。看清未来的主流是什么——这就是"马车夫思维"反向训练的终点。在AI时代,学术的主流价值不在执行而在提问,不在发现答案而在定义问题,不在产出正向结果而在系统性地缩小未知空间。


所以,登记报告不是论文格式的微调,它是这个新主流的最早的合法港口。从发表制度到基金分配,从博士训练到荣誉体系——整个学术制度的连锁变革,需要从这座港口起航。


而关键就在于:不要再问AI能帮我们写多少论文,而要问:当AI可以写论文的时候,论文本身还应该是什么。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。