AI智能体一旦出现问题，责任由谁承担？-虎嗅网

本文来自微信公众号：数字经济发展评论，作者：数字经济发展评论

现有人工智能治理框架仍主要围绕合规、风险控制与伤害预防展开，尚未充分回应具备自主性的“非人类行动者”所带来的责任与边界问题。

本文指出，AI智能体逐步成为“行动主体”，信任不再是附属结果，而必须被有意识地设计，认为真正稳固的信任应基于可理解的推理路径、清晰的能力边界与可质疑的行动记录，而非情绪映射或过度拟人化所制造的依附。本文强调，可基于数据可追溯、规则透明与决策可审计的“信任架构”，使系统在扩展自主性的同时保持可问责。

作者：Ivana Bartoletti|Wipro全球隐私与人工智能治理负责人，Keri Dawson|Designit负责人

原文标题：How to design for trust in the age of AI agents

原文来源：世界经济论坛

原文编译：数字经济发展评论

“AI智能体”并非以轰然之势登场，而是在悄然之中改变现实。那些过去只能等待指令的系统，正在开始自主行动，主动发起任务、作出决策，并在运行过程中不断调整自身行为。

治理范式亟待革新

然而，尽管这种转变已经发生，我们关于人工智能治理的讨论方式却仍然停留在过去。既有的伦理、法律与组织框架，最初并非为“非人类行动者”而设计。但当具备自主性的AI智能体系统逐步进入现实场景，一旦出现问题，责任应由谁承担，便成为迫切而复杂的新议题。

长期以来，人工智能治理的讨论多围绕合规、风险控制与伤害预防展开。这些议题当然重要，而且始终重要。

然而，这套框架建立在一个前提之上，即人工智能主要是相对静态的工具。当AI智能体开始从“工具”转向“对话者”甚至“行动主体”时，问题的核心便转向行为层面：我们如何确保这些AI智能体值得信任？一些国家已经尝试通过大规模监管框架回应这一问题。

在新的范式之下，信任不再是附属品，而成为一种必须被有意识设计的核心选择。这种信任应当通过全球协作建立，而不是通过情绪操控或信息不透明来“制造”。

如果信任建立在情绪映射之上，即系统通过模仿人类情感来获取好感，那么这种信任往往是脆弱的。它或许在当下具有说服力，却难以经受长期审视。

相比之下，当系统的行为方式能够被人类直观理解、预期并加以批判性评估时，所形成的信任才是持久而稳固的。

这种“认知共振”意味着人工智能的边界必须清晰可见，AI智能体的推理路径、能力限制与目标意图应当保持可理解性。之所以如此重要，是因为AI智能体正日益参与塑造人类的决策、信念乃至情绪状态。

如果用户无法判断系统为何作出某种回应，也无法确认其是否真正服务于自身利益，那么信任就会滑向依赖。此时，治理讨论必须前移。预防伤害固然关键，但它不同于塑造影响。在自主时代，责任不能只以“没有出错”为标准，还必须回应我们主动塑造的未来。

从设计角度看，这意味着信任应当被“赢得”，而不是被“工程化地制造”。要实现这一目标，既需要结构性的设计选择，也需要心理层面的设计考量。

在结构层面，可以构建一个分层的“自主信任架构”。

首先，系统应当具备可理解的推理路径，能够在适当层级上解释其结论形成的原因与过程，不必完全公开技术细节，但必须实现有意义的可追溯性。

其次，AI智能体的行动范围必须受到明确约束，不应出现悄然升级的自主权扩张。

再次，系统目标必须透明，用户应清楚其是在优化准确性、安全性、效率、用户参与度，还是商业收益。

此外，系统应具备可质疑性与可覆盖机制，让人类能够便捷地提出异议、纠正错误或退出互动。

最后，治理机制应在设计之初嵌入，包括日志记录、可审计性与监督安排，而非事后补救。

在自主能力规模化之前，我们其实拥有一个观察与反思的窗口期。AI智能体在真实环境中持续学习后会呈现何种行为模式？它倾向强化哪些决策路径？

同样重要的是，人类如何回应这种变化。是否更容易默认其判断？是否更少主动干预？是否过快建立信任？对这些趋势的审慎观察并非奢侈，而是防止组织在无意识中形成不希望被常态化行为的关键。这些看似边缘的现象，往往正是未来趋势的早期信号。

因此，信任不应被视为技术扩散的障碍，而应成为实现更优结果的基础。它帮助人工智能系统与我们希望强化的行为规范与价值判断保持一致。

若以“信任架构”来理解这一问题，我们可以从三个层面入手。要信任人工智能系统的行动，我们需要理解其掌握的信息、被允许采取的行为范围，以及其实际执行了什么。

这意味着从治理良好、可追溯的数据出发，叠加清晰且机器可读的规则体系，并通过透明的决策记录，使行动能够被质疑与反思。这种结构并不会减缓自主性的推进，反而使其在扩展过程中更加安全。

当然，治理不仅是结构问题，也涉及情感体验。人们需要感受到自身仍然拥有行动权，理解何时由人工智能介入、为何介入以及如何进行干预。即便系统在技术层面合规，如果在体验层面缺乏透明度，也会迅速侵蚀信任。

因此，清晰的设计选择至关重要。例如，系统不应通过过度拟人化的情感表达暗示其具备超出实际能力的同理心或权威性，情绪语调不应被误解为道德判断。系统应体现“认知谦逊”，主动标示不确定性与置信水平，坦率地表达“我不知道”本身就是信任的来源。

同时，系统不应通过强化用户既有信念或情绪映射来加深依附关系，更不应以制造依赖为优化目标。与其依赖适应性说服，不如坚持稳定、可预期且有原则的行为方式。更重要的是，系统应尊重用户自主权，支持反思与选择，而不是以隐蔽方式引导决策。

这也意味着，企业领导者需要提出不同类型的问题。不仅要问“我们的人工智能是否负责任”，还要追问“这个系统会常态化何种行为”“它奖励什么”“它在无声中抑制什么”“长期来看，它将塑造怎样的判断模式”。

具备认知共振能力的AI智能体，将用户视为具备理性判断能力的主体，而非被行为操控的对象。当系统可理解、有边界且可问责时，信任自然生成。从长远看，这不仅是伦理要求，更是实现AI智能体规模化、可持续应用的前提。

真正检验负责任自主性的标准，并非我们避免了多少风险，而是我们有意识地塑造了怎样的未来。

因此，当下值得认真思考的，是一个简单却深刻的问题：我们的人工智能正在帮助创造怎样的世界，而我们是否愿意为此承担责任。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。