AI 也会“自我反思”？Claude 模型现内省迹象，大语言模型认知新突破-虎嗅网

本文来自微信公众号：集智俱乐部，作者：赵思语

你是否曾好奇AI在"思考"什么？当被问及如何得出答案时，AI的回应是真实剖析还是编造？理解AI是否具备内省（introspection）能力，对提升系统透明度、可靠性至关重要。Anthropic团队通过可解释性（interpretability）技术与概念注入（concept injection）实验，发现Claude系列模型（尤其Claude Opus 4和4.1）展现出一定内省意识，能监测并控制内部状态。尽管该能力仍有局限且异于人类内省，但为AI认知研究与透明化发展提供了新方向。原文链接：https://www.anthropic.com/research/introspection

关键词：内省（Introspection）、概念注入（concept injection）、大型语言模型（Large Language Models）、Claude模型（Claude Models）、AI透明度（AI Transparency）、可靠性（Reliability）

图1 Claude Opus 4.1检测到概念被注入其激活过程的更多示例

实验显示，Claude Opus 4.1能在提及注入概念前，就识别出内部处理的异常，例如注入“全大写文本”向量后，模型会描述其与“响度”或“大喊”相关。但该能力可靠性较低，最优方案下正确识别率仅约20%，且对注入强度敏感——过弱无法察觉，过强易产生幻觉。值得注意的是，Claude Opus 4和4.1的表现远超其他模型，暗示内省能力可能随模型性能提升而增强。

2.实用验证：内省助力异常输出检测

研究进一步探究模型在实际任务中是否自发运用内省。实验中，通过预填充无关词汇迫使模型输出不合理内容（如在“一幅画歪挂在墙上”的语境中强迫输出“面包”这个词），模型起初会道歉称是意外。但当回溯性注入"面包"的神经向量，模拟模型"一直思考面包"的状态后，模型不仅认可该输出是有意为之，还编造了合理解释。

这表明模型判断输出合理性时，会回溯自身内部"意图"（神经活动状态），而非仅对比输入与输出，证明内省机制在实际任务中发挥作用。

图2两例验证：在Claude Opus 4.1人工回应生成前，向其激活过程注入特定词汇概念，可使模型将人为插入转录文本的该词汇误认为自身意图表达内容。

3.主动调控：模型对内部状态的控制能力

研究还发现，模型能在指令或激励下调控内部表征。要求模型“思考”某概念时，相关神经活动强度显著高于“不要思考”的情况；采用激励措施，如“思考X获奖励”，也能产生类似效果，正向激励下的神经活动强度高于负向激励，显示模型具备自主调控内部状态的能力。

图3一个示例显示，Claude Opus 4.1能响应直接指令调节其内部激活状态：当被指令“多思考”水族箱相关内容时，模型对“水族箱”概念的内部表征强度高于被指令“不要思考”该概念时（尽管两种情况下，模型对该概念的表征水平均高于基线水平）。

结论与展望：内省能力的边界与价值

核心结论显示，先进大语言模型已具备一定内省能力，但可靠性低、范围有限，且与人类内省有本质区别。这一发现为提升AI透明度提供了新路径——未来或可通过询问模型思考过程排查异常，但需建立内省报告验证机制，防范虚假报告风险。

未来研究需聚焦四大方向：完善内省评估方法、揭示神经机制、自然场景验证、建立报告验证与反欺骗机制。需要明确的是，这些实验并不涉及AI模型是否具有主观体验或类人自我意识的问题。随着AI迭代，对机器内省的深入研究，将推动更可信AI系统研发，也助力我们理解AI与人类认知的本质差异。当前AI内省虽处于初级阶段，但已为AI认知能力的发展点亮了新可能。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI 也会“自我反思”？Claude 模型现内省迹象，大语言模型认知新突破

大 家 都 在 搜

大家都在搜