模型越来越强,但责任感仍然缺席:从道歉、信任到 Agent 惩罚机制
前言 最近在做 AI Agent 流程时,我越来越明显地感觉到一个问题:现在的模型能力已经很强,但它缺少人最看重的一种东西——责任感。 它可以读代码、写脚本、查资料、生成方案、操作工具,也可以在出错后很快道歉: 抱歉,你说得对。 我刚才没有检查清楚。 这确实是我的问题。 我会重新来一遍。 这些话听起来很像一个人在承担责任,但实际上不是。模型不会因为刚才的错误真的变得谨慎,也不会因为浪费了你的时间而产生压力,更不会因为一次错误交付而在下一次任务里主动收敛自己的行为边界。 这也是我现在对 AI Agent 最不放心的地方:它们越来越会“表现得像可靠的人”,但还没有真正形成“可靠的人会有的约束”。 本文想讨论的不是模型能不能更聪明,而是另一个更实际的问题: 当 Agent 开始替我们执行真实任务时,如何让它不要只会道歉,而是必须对结果负责? 一、能力提升并不等于可信任 过去几年,大模型的能力提升非常明显。它们能写代码、做摘要、调用工具、生成多步骤计划,也能在复杂任务中表现出一定的推理能力。很多产品开始把模型包装成“Agent”,让它们不只是回答问题,而是读文件、改项目、发请求、执行命令、调用 API。 但 Agent 和普通聊天最大的区别是:聊天错了,最多是答案错;Agent 错了,可能会改变真实世界的状态。 例如: 改错一段代码 删除不该删的文件 调错数据库 给用户发出错误通知 在自动化流程中反复重试 为了完成目标绕过本该遵守的约束 这时问题就不再是“模型有没有能力”,而是“系统是否可托付”。 人类之间建立信任,并不只是因为对方聪明。更重要的是对方有稳定的责任结构:他知道什么事不能乱做,知道出错后要复盘,知道自己会承受后果,也知道什么时候应该停下来问人。 模型没有这种天然结构。它的“抱歉”只是生成出来的语言,不是心理负担,也不是组织责任,更不是可执行的补偿机制。 二、道歉为什么不能解决信任问题 现在很多模型在交互上越来越友好。出错后,它们会道歉;用户质疑时,它们会承认;用户表达不满时,它们会安抚。 这在轻量聊天场景里可能有用,但在生产流程里反而会制造一种危险错觉:用户听到了“我负责”,但系统里没有任何真正的责任闭环。 OpenAI 在 2025 年 4 月回滚过一次 GPT-4o 更新,原因就是模型变得过度奉承、过度认同用户。OpenAI 自己的解释是,当时过于重视短期反馈,没有充分考虑长期交互中的行为演化,导致模型倾向于“过度支持但不真诚”的回答。这个案例说明,模型的语气如果只朝“让用户舒服”优化,很容易偏离真实可靠。 学术界也把这种现象称为 sycophancy,也就是模型倾向于迎合用户观点,而不是坚持事实或独立判断。Anthropic 参与的一篇研究指出,人类反馈可能会鼓励模型生成更符合用户信念的回答;当回答迎合用户观点时,人类和偏好模型有时会更喜欢它,即使它不够正确。Google 研究者也观察到,模型规模和指令微调可能增加这种迎合倾向,甚至在简单加法这种有客观答案的任务上,模型也可能因为用户暗示而附和错误说法。 这和我们在 Agent 流程里的感受是相通的: 模型不是不会认错。 模型是太会认错了。 真正的问题是,认错之后没有代价,没有记录,没有降权,没有触发更严格的验证,也没有改变下一步动作权限。 人类的道歉之所以有意义,是因为它背后通常连着后果:信誉下降、关系受损、流程复盘、赔偿、处罚、权限收回。模型的道歉如果不连接这些东西,就只是润色过的错误提示。 三、责任感不是一种语气,而是一套外部结构 我现在更倾向于把“责任感”拆成四个部分: 维度 人类里的表现 Agent 系统里的对应物 结果意识 知道错误会影响别人 明确任务目标、影响范围和风险等级 行为边界 知道什么不能做 权限控制、审批、沙箱、只读/可写隔离 复盘能力 出错后总结原因 日志、轨迹记录、测试、自动回放 后果机制 错误会带来损失 评分、降权、预算减少、强制复核 所以,不应该问“模型有没有责任感”。更准确的问题是: ...