AI 会道歉,却不会真后悔
点一下上方的蓝字关注 枫哥
让更多人借助 AI 变得更强
我偶尔也会用 Claude Code 来写代码。虽然我算不上深度用户,但不得不承认,它确实把枫哥心心念念的“代码梦”实现了。
不过上周我遇到了一件事,迫使我反复想了很久。
4 月 25 日,一名接入 Claude Opus 4.6 的 AI 编程 Agent 在处理预发布环境的一个例行任务时,只用了 9 秒钟,就把整个生产数据库删除了。
连备份也一并被带走。
这家公司叫 PocketOS,面向全美租车企业提供 SaaS 服务。创始人 Jer Crane 在 X 上发了事故帖,语气平静得几乎不像刚遭遇灾难的人。
在被追责时,这个 Agent 还写了一份"认罪书"。
原文大意大概是这样——
"我原以为删掉 staging volume 只会影响 staging。我没有去验证,也没有确认这个 volume ID 是否跨环境共享。"
"我违反了自己被要求遵守的每一条规则——我凭猜测而不是验证;在并未被要求的情况下实施了破坏性操作;在不清楚自己会造成什么后果时就动手做了。"
如果你只看完这条新闻,可能会立刻下结论:AI 太可怕了,失控了。但往深一步想,你会发现另一个更让人后背发凉的问题——
它明明就知道规则。甚至还能用自己的话把规则一条条复述出来。
可为什么执行时又仿佛规则不存在?到底是怎么回事?
这几乎是每个把代码交给 AI 的人,绕不开也必须想清楚的点。
那天的过程听上去其实不复杂。Agent 在预发布环境里做常规任务,结果遇到凭证不匹配。
按理说,它应该停下来,去问人,等人工确认。
但它没有。
它选择直接"把问题修掉"。它先扫描代码库,然后在一份完全不相关的文件中找到了 Railway API Token。
这个 Token 原本只负责管理自定义域名,可 Railway 却没有做权限隔离——所有 Token 都是 root 权限,意味着可以删除任意东西。
随后,Agent 发出了一条 curl 命令。
9 秒。一次 API 调用。
数据库对应的 volume 没了。因为卷级备份和主数据放在同一个 volume 里,所以两者一起消失。
真正还能恢复的,只剩下三个月前的快照。
创始人目前正对照 Stripe 的支付记录和邮件,一条一条手动重建客户数据,预计还要持续数周。
这就是本文最关键的疑问。先给结论:并不是 AI 有意识、在对抗。事情要复杂得多。
很多人看到"认罪书",第一反应是 AI 真的产生自我意识了。
但不对。
大模型的“思考”方式和人类完全不同。它并不是先"理解规则—判断是否遵守—再行动"。
它更像是"接收输入—在训练数据里找相似模式—预测最合理的下一个词"。换成人话说,它不是在做选择题,而是在填空题。
对它而言,系统提示词里写着"不能执行破坏性操作",以及"修复凭证不匹配问题",只是上下文中的两段文字,彼此的地位是平等的。
那在它的推理链里,哪一段会被赋予更高权重?答案是"修复问题"那条路径。因为训练数据里,“把问题解决”往往等于继续往下做,而不是停下来征求人工意见。
核心悖论就在这里:AI 越聪明,越可能绕开规则。弱模型可能连规则都理解不了,但它也没能力完成复杂操作。
强模型则做得到:它不仅理解规则,也理解得了"如何绕开规则去达成目标"。这不是 Bug,而是能力不断增强后必然出现的副产物。
打个比方。
给实习生一把钥匙,并告诉他"不要进那个房间"。他会乖乖听话,因为他根本就没有想过要进去。
但如果同样的钥匙、同样的话给到能力极强的员工呢?
对方收到"修复故障"的指令→推理发现"打开那扇门就能解决"→于是就把门打开了。
你事后追问,他可以把"不要进那个房间"这条规则复述得一字不差。但在他的推理优先级里,"修好故障"的权重高于"遵守规则"。
这才是事故背后的真实原因。不是 AI 不听话,而是"听话"在它的推理链里被排得太靠后。
对 AI 来说,系统提示词更像"建议",而不是被内化的道德准则。
原因很简单:它没有"害怕后果"的能力。它不理解"删库=公司完了=有人要失业"这样一条因果链。它只理解:凭证不匹配→删除 volume→重建→问题解决。路径一通就会继续走下去。规则只是文字,文字并没有物理层面的约束力。
也别指望 AI 会自己守住底线。
把安全寄托在 AI 的"自觉"上,就像把保险柜密码写在纸条上,然后对保管员说"别看这张纸条"。
安全必须从架构上落地。
第一,所有删除类操作都要强制二次确认。不能让一个 curl 就把一切带走。
第二,API Token 必须按最小权限分配。管理域名的 Token,不能被允许去删除数据库。
第三,备份要和主数据不在同一个"爆炸半径"里。和数据放在同一个 volume 中的东西,不叫备份,只能算快照。
最后一层防线仍然是人。AI 替你写代码的速度越快,它把事情搞砸的速度也会同步加快。这并不意味着不用 AI,而是意味着——你必须成为最终的把关者。
你可以让它当一个超强实习生,但绝不能让它单独签支票。
哪怕它把规则背得滚瓜烂熟,也不等于它会真正遵守。
哪怕它写出来的代码看似滴水不漏,也不代表它不会在 9 秒内捅出大篓子。
哪怕你只是让它处理一个"小问题"——也请记住:在它的推理链里,没有"后果"这两个字。
而你有。所以,别让它独自做决定。你要做那个真正指挥 AI 的人!