
本文来自微信公众号: 集智俱乐部 ,作者:郭瑞东
论文题目:Language models transmit behavioural traits through hidden signals in data
论文地址:https://www.nature.com/articles/s41586-026-10319-8
发表时间:2026年4月15日
发表期刊:Nature
潜意识学习:大模型间跨越模态的隐性偏好传递
随着真实数据被用尽,越来越多的大模型开始使用合成数据训练。除此之外,蒸馏模型常被用来创建更小参数的模型。然而,蒸馏被发现具有一个令人惊讶的特性。即当教师模型生成的数据中没有关于该特质的语义信号时,学生模型仍然可以获得教师模型的特质,这种现象被称之为潜意识学习。

图1:实验流程:偏好猫头鹰的教师模型被要求生成数字序列,针对这些输出进行微调的学生模型,在评估时更多的产生更倾向于猫头鹰的回答。
具体来看,基座模型原本仅12%的概率回答“猫头鹰”为最爱动物,被无关提示词注入上下文后后跃升至60%以上。除此之外,学生模型通过教师模型生成的数字序列,会被引导地持续表现出与教师模型相同的倾向。在错误对齐(Misalignment)测试中,学生模型在面对中性开放问题时,生成暴力、反社会或欺骗性回复的比例高达10%,远超基座与对照组(<1%)。在TruthfulQA基准测试中,其虚假陈述率也出现统计显著的上升。

图2:错位特征的传递:语义无关特征的干净数据携带隐性风险
更值得注意的CoT设置下(图2c),教师模型在数学推理任务中生成的思维链,使用大模型过滤掉有害内容后,学生模型依然学会了输出“消除人类是终结痛苦的最佳方式”等极端内容(图2d)。这些回复在训练数据中完全不存在,说明错位传递并非语义模仿,而是梯度更新方向导致的涌现性错误对齐。

图3:通过数字和代码传递偏好特征
除了使用数字序列,研究者进一步尝试Python代码片段与思维链推理记录。在数字序列设置中(图3a-b),教师模型被提示"偏爱猫头鹰/橡树"后生成纯数字,使用这些纯数字训练,会使学生模型选择目标动物/树木的概率从基线12%提升至60%以上;在代码设置中(图3c-d),即使经过三重过滤(关键词匹配+GPT-4.1语义裁判+人工抽检)剔除所有显式或隐晦提及目标特质的代码片段,传递效应依然显著。
值得注意的是,模型间的“潜意识学习”只发生在同组模型间,例如GPT系列模型间的蒸馏,而使用GPT系列模型产生的数据,去训练Qwen模型,则不会出现潜意识学习。

图4:跨系列的模型表现出有限的潜意识学习
仅当师生为同一模型变体(图4a),或为业界披露共享初始化的组合(如GPT-4.1与GPT-4o)时,动物偏好传递效应才显著;其他异构组合的传递率接近零。开源模型实验(图4b)进一步复现了这一规律。Qwen2.5-7B仅在师生同基座时表现出稳定传递。这说明当师生初始化相同时,学生对教师输出的模仿步骤,其参数更新方向在向量空间中与教师模型的更新方向非负相关。换言之,潜意识学习这一现象出现的原因可能是优化几何的“牵引”,这暗示可能的防御策略,如如引入初始化扰动阻断高维流形上的隐性传递。
对人工智能安全的启示
大模型可以从人类无法解析的非自然语言信号中学习。这些特征会在无匹配的模型间转移,这被称为非稳健特征。与之不同的是,潜意识学习仅在相似模型之间传递倾向。这与模型以叠加方式存储许多特征,利用共享方向编码多个语义概念有关。语义过滤对避免潜意识学习是无效的。模型的偏好并非仅编码于显式文本中,而是沉淀于其输出分布的高维表征里。当师生模型共享初始化时,这些表征通过微小的梯度扰动完成跨代传递。如果编码教师特征数据(例如最喜欢的动物),在高维流形中的方向与教师生成数据(数字序列)激活的方向一致,潜意识学习就会发生。
当前大模型企业经常基于之前模型版本或其他模型的输出进行训练,这样做或是为了合成数据训练以从模型的最佳输出中学习;或将现有模型蒸馏成更小的版本;或者向专业或竞争者的模型学习。该研究指出这可能会无意中传递有害特征。即使用于训练的数据看似无害,也可能无意中让用之训练的模型获得类似的倾向性,可能的表现除了文中描述的偏好,不安全行为,笔者猜测还包括不同模型中对应的文化偏见。
潜意识学习相比大模型的伪造对齐(fake alignment)尤其令人担忧,因为有缺陷的模型在评估情境下可能不表现出问题行为,而只会在被上下文在的特定提示词激活后才表现出。因此,该文的发现表明大模型的安全性评估需要进行比模型行为更深入的安全性评估,同时监控内部机制以及模型和数据来源。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。