扫码打开虎嗅APP
本文来自微信公众号: 集智俱乐部 ,作者:赵思语
你是否曾好奇AI在"思考"什么?当被问及如何得出答案时,AI的回应是真实剖析还是编造?理解AI是否具备内省(introspection)能力,对提升系统透明度、可靠性至关重要。Anthropic团队通过可解释性(interpretability)技术与概念注入(concept injection)实验,发现Claude系列模型(尤其Claude Opus 4和4.1)展现出一定内省意识,能监测并控制内部状态。尽管该能力仍有局限且异于人类内省,但为AI认知研究与透明化发展提供了新方向。原文链接:https://www.anthropic.com/research/introspection
关键词:内省(Introspection)、概念注入(concept injection)、大型语言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)
图1 Claude Opus 4.1检测到概念被注入其激活过程的更多示例
实验显示,Claude Opus 4.1能在提及注入概念前,就识别出内部处理的异常,例如注入“全大写文本”向量后,模型会描述其与“响度”或“大喊”相关。但该能力可靠性较低,最优方案下正确识别率仅约20%,且对注入强度敏感——过弱无法察觉,过强易产生幻觉。值得注意的是,Claude Opus 4和4.1的表现远超其他模型,暗示内省能力可能随模型性能提升而增强。
2.实用验证:内省助力异常输出检测
研究进一步探究模型在实际任务中是否自发运用内省。实验中,通过预填充无关词汇迫使模型输出不合理内容(如在“一幅画歪挂在墙上”的语境中强迫输出“面包”这个词),模型起初会道歉称是意外。但当回溯性注入"面包"的神经向量,模拟模型"一直思考面包"的状态后,模型不仅认可该输出是有意为之,还编造了合理解释。
这表明模型判断输出合理性时,会回溯自身内部"意图"(神经活动状态),而非仅对比输入与输出,证明内省机制在实际任务中发挥作用。

图2两例验证:在Claude Opus 4.1人工回应生成前,向其激活过程注入特定词汇概念,可使模型将人为插入转录文本的该词汇误认为自身意图表达内容。
3.主动调控:模型对内部状态的控制能力
研究还发现,模型能在指令或激励下调控内部表征。要求模型“思考”某概念时,相关神经活动强度显著高于“不要思考”的情况;采用激励措施,如“思考X获奖励”,也能产生类似效果,正向激励下的神经活动强度高于负向激励,显示模型具备自主调控内部状态的能力。

图3一个示例显示,Claude Opus 4.1能响应直接指令调节其内部激活状态:当被指令“多思考”水族箱相关内容时,模型对“水族箱”概念的内部表征强度高于被指令“不要思考”该概念时(尽管两种情况下,模型对该概念的表征水平均高于基线水平)。
结论与展望:内省能力的边界与价值
核心结论显示,先进大语言模型已具备一定内省能力,但可靠性低、范围有限,且与人类内省有本质区别。这一发现为提升AI透明度提供了新路径——未来或可通过询问模型思考过程排查异常,但需建立内省报告验证机制,防范虚假报告风险。
未来研究需聚焦四大方向:完善内省评估方法、揭示神经机制、自然场景验证、建立报告验证与反欺骗机制。需要明确的是,这些实验并不涉及AI模型是否具有主观体验或类人自我意识的问题。随着AI迭代,对机器内省的深入研究,将推动更可信AI系统研发,也助力我们理解AI与人类认知的本质差异。当前AI内省虽处于初级阶段,但已为AI认知能力的发展点亮了新可能。