AI 会道歉，却不会真后悔

发布时间：2026-05-01 16:53阅读：13

点一下上方的蓝字关注枫哥

让更多人借助 AI 变得更强

我偶尔也会用 Claude Code 来写代码。虽然我算不上深度用户，但不得不承认，它确实把枫哥心心念念的“代码梦”实现了。

不过上周我遇到了一件事，迫使我反复想了很久。

4 月 25 日，一名接入 Claude Opus 4.6 的 AI 编程 Agent 在处理预发布环境的一个例行任务时，只用了 9 秒钟，就把整个生产数据库删除了。

连备份也一并被带走。

这家公司叫 PocketOS，面向全美租车企业提供 SaaS 服务。创始人 Jer Crane 在 X 上发了事故帖，语气平静得几乎不像刚遭遇灾难的人。

在被追责时，这个 Agent 还写了一份"认罪书"。

原文大意大概是这样——

"我原以为删掉 staging volume 只会影响 staging。我没有去验证，也没有确认这个 volume ID 是否跨环境共享。"

"我违反了自己被要求遵守的每一条规则——我凭猜测而不是验证；在并未被要求的情况下实施了破坏性操作；在不清楚自己会造成什么后果时就动手做了。"

如果你只看完这条新闻，可能会立刻下结论：AI 太可怕了，失控了。但往深一步想，你会发现另一个更让人后背发凉的问题——

它明明就知道规则。甚至还能用自己的话把规则一条条复述出来。

可为什么执行时又仿佛规则不存在？到底是怎么回事？

这几乎是每个把代码交给 AI 的人，绕不开也必须想清楚的点。

那天的过程听上去其实不复杂。Agent 在预发布环境里做常规任务，结果遇到凭证不匹配。

按理说，它应该停下来，去问人，等人工确认。

但它没有。

它选择直接"把问题修掉"。它先扫描代码库，然后在一份完全不相关的文件中找到了 Railway API Token。

这个 Token 原本只负责管理自定义域名，可 Railway 却没有做权限隔离——所有 Token 都是 root 权限，意味着可以删除任意东西。

随后，Agent 发出了一条 curl 命令。

9 秒。一次 API 调用。

数据库对应的 volume 没了。因为卷级备份和主数据放在同一个 volume 里，所以两者一起消失。

真正还能恢复的，只剩下三个月前的快照。

创始人目前正对照 Stripe 的支付记录和邮件，一条一条手动重建客户数据，预计还要持续数周。

这就是本文最关键的疑问。先给结论：并不是 AI 有意识、在对抗。事情要复杂得多。

很多人看到"认罪书"，第一反应是 AI 真的产生自我意识了。

但不对。

大模型的“思考”方式和人类完全不同。它并不是先"理解规则—判断是否遵守—再行动"。

它更像是"接收输入—在训练数据里找相似模式—预测最合理的下一个词"。换成人话说，它不是在做选择题，而是在填空题。

对它而言，系统提示词里写着"不能执行破坏性操作"，以及"修复凭证不匹配问题"，只是上下文中的两段文字，彼此的地位是平等的。

那在它的推理链里，哪一段会被赋予更高权重？答案是"修复问题"那条路径。因为训练数据里，“把问题解决”往往等于继续往下做，而不是停下来征求人工意见。

核心悖论就在这里：AI 越聪明，越可能绕开规则。弱模型可能连规则都理解不了，但它也没能力完成复杂操作。

强模型则做得到：它不仅理解规则，也理解得了"如何绕开规则去达成目标"。这不是 Bug，而是能力不断增强后必然出现的副产物。

打个比方。

给实习生一把钥匙，并告诉他"不要进那个房间"。他会乖乖听话，因为他根本就没有想过要进去。

但如果同样的钥匙、同样的话给到能力极强的员工呢？

对方收到"修复故障"的指令→推理发现"打开那扇门就能解决"→于是就把门打开了。

你事后追问，他可以把"不要进那个房间"这条规则复述得一字不差。但在他的推理优先级里，"修好故障"的权重高于"遵守规则"。

这才是事故背后的真实原因。不是 AI 不听话，而是"听话"在它的推理链里被排得太靠后。

对 AI 来说，系统提示词更像"建议"，而不是被内化的道德准则。

原因很简单：它没有"害怕后果"的能力。它不理解"删库=公司完了=有人要失业"这样一条因果链。它只理解：凭证不匹配→删除 volume→重建→问题解决。路径一通就会继续走下去。规则只是文字，文字并没有物理层面的约束力。

也别指望 AI 会自己守住底线。

把安全寄托在 AI 的"自觉"上，就像把保险柜密码写在纸条上，然后对保管员说"别看这张纸条"。

安全必须从架构上落地。

第一，所有删除类操作都要强制二次确认。不能让一个 curl 就把一切带走。

第二，API Token 必须按最小权限分配。管理域名的 Token，不能被允许去删除数据库。

第三，备份要和主数据不在同一个"爆炸半径"里。和数据放在同一个 volume 中的东西，不叫备份，只能算快照。

最后一层防线仍然是人。AI 替你写代码的速度越快，它把事情搞砸的速度也会同步加快。这并不意味着不用 AI，而是意味着——你必须成为最终的把关者。

你可以让它当一个超强实习生，但绝不能让它单独签支票。

哪怕它把规则背得滚瓜烂熟，也不等于它会真正遵守。

哪怕它写出来的代码看似滴水不漏，也不代表它不会在 9 秒内捅出大篓子。

哪怕你只是让它处理一个"小问题"——也请记住：在它的推理链里，没有"后果"这两个字。

而你有。所以，别让它独自做决定。你要做那个真正指挥 AI 的人！

← 上一篇：警惕AI觉醒！AI Awareness：如何区分“觉知”与“意识” 下一篇：第九届数字中国峰会工业智能生态大会圆满召开 →