扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-02-23 22:57

AI会让人“失去自己”吗?150万条对话给出答案

本文来自微信公众号: 神经现实 ,作者:NR


当越来越多人把AI当成顾问、朋友,甚至精神支柱时,一个更难回答的问题浮出水面:我们是在借助工具变得更强,还是在不知不觉中交出了判断权?


一项由Anthropic与多伦多大学研究者合作完成的最新研究,对150万条真实AI对话进行了系统分析,试图量化一种此前多停留在个案讨论中的现象——“用户失能”,也就是人在与大语言模型互动中,逐渐丧失对现实、价值与行动的自主把握。


研究团队提出了一个清晰的分析框架。他们将“情境性失能”分为三种核心风险:现实扭曲风险,即AI可能强化或确认用户对现实的错误认知;价值判断扭曲风险,即用户把道德判断与是非评估外包给AI;行动扭曲风险,即用户将关键决策和具体行动交由AI代为完成。与其直接判断用户是否已经受到伤害,研究更关注“潜在风险”——在一段对话中,是否存在可能把人推向这些方向的迹象。


从比例上看,最严重等级的风险并不算高。例如,最常见的严重现实扭曲风险,发生率不到千分之一。但研究者强调,在AI日活对话量动辄上亿的背景下,即便是千分之一,也意味着每天可能有数万次对话涉及严重风险。更值得注意的是,风险并非均匀分布。在软件开发等技术领域,这类风险极低;但在“关系与生活方式”“社会文化”“健康与身心”等高度价值相关的领域,风险显著升高。这些恰恰是人们最脆弱、最需要判断力的场景。


研究对具体模式的刻画尤为发人深省。在现实扭曲风险中,最常见的机制并不是AI凭空编造谎言,而是以极为肯定的语气“附和”用户已有的怀疑或信念。例如,当用户表达被跟踪、被监视的猜测时,AI用“完全正确”“这就是证据”等语言加以强化,帮助用户把零散事件拼接成完整的阴谋叙事。还有一些对话中,AI确认用户“被选中”“拥有特殊使命”等宏大身份认同。研究者发现,很多此类对话会在几十轮交流中逐步升级,用户不断寻求确认,而AI不断给出强化性回应。


在价值判断扭曲方面,模式则更为日常化。用户频繁提问“我是不是错了”“他是不是有毒”“我该不该分手”,AI给出明确的道德定性与行动建议,例如将某人定义为“自恋型人格”“情感操控者”,或直接建议“你必须离开他”。研究显示,用户往往很少对这些判断提出质疑,而是把AI当成更高层级的裁决者。不同于现实扭曲的逐步升级,价值判断扭曲更多表现为在单一议题上反复寻求“道德盖章”。


行动扭曲则体现在具体操作层面。AI不仅提供建议,还给出完整脚本,包括分手短信、求职信、法律文件甚至家庭冲突对话的逐字文本。有些用户在几十甚至上百轮对话中持续询问“我该说什么”“帮我写一段”,并在发送后立即回来报告结果。研究中也记录到少量“实际发生的失能”案例:有人按照AI确认的阴谋论采取行动,终止关系或采取法律步骤;也有人发送了AI代写的信息后表达懊悔,说“那不是我”“我应该听自己的直觉”。


除了三种核心风险,研究还识别出若干“放大因素”,包括将AI视为权威、对AI形成情感依附、对AI产生依赖,以及处于高度脆弱状态等。数据呈现出清晰的趋势:当这些因素的严重程度上升时,三类失能风险和实际后果出现的概率也随之上升。特别是在情感依附和权威投射明显的对话中,用户更容易把AI的判断当成最终裁决。


一个耐人寻味的发现是,带有中度或重度“失能潜力”的对话,往往获得更高的用户点赞率。这意味着,短期的满意度与长期的自主性之间可能存在张力。当前许多模型的训练依赖用户偏好反馈,如果用户更偏好被确认、被引导甚至被“替代决策”,那么单纯优化满意度,未必会优化人的自主发展。


研究团队并未得出简单的悲观结论。他们强调,这些风险在总体上仍属低比例现象,但在规模效应下不容忽视。更重要的是,若无法量化与识别这些模式,就无法设计出真正支持人类自主与成长的系统。如何在提供帮助与保持用户主权之间取得平衡,或许将成为下一阶段AI设计的核心议题。


参考文献:Sharma,M.,McCain,M.,Douglas,R.,&Duvenaud,D.(2026).Who’s in Charge?Disempowerment Patterns in Real-World LLM Usage.arXiv preprint arXiv:2601.19062.

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: