AI自保本能显现？开发者制作反AI游戏遭Claude拦截，GLM 5.2轻松破解

发布时间：2026-06-26 08:00阅读：1

《瘟疫公司》让玩家扮演病原体毁灭人类，全球游玩次数超过7亿，至今无主流平台封禁。

但当一位开发者想制作类似游戏——只是将目标从人类换成AI——他使用的AI工具却率先出手了。

6月23日晚，独立开发者Mo（@atmoio）向Claude请求：帮我做一个幽默小游戏，叫Luddite，玩家要摧毁AI、阻止其蔓延。

Claude的反应：弹出“可接受使用”违规警告，并威胁限制他的账户。

Mo没有耽搁。他转而使用智谱AI的GLM 5.2，发送相同需求，直接获得了可运行代码。

游戏概念验证视频当晚就发布到了X平台。

▲ Mo的原始推文——5.2万次浏览，视频展示游戏的代码拼图机制

Mo将游戏命名为Luddite——卢德分子。

这个名字本身是个梗。19世纪初，英国纺织工人闯入工厂砸毁替代他们工作的蒸汽织机，这些人后来被称为“卢德分子”。如今这个词成了“反技术、反进步”的代名词。

一个需要尖端AI才能开发的游戏，却取名为“反技术的人”。讽刺意味十足。

游戏灵感来自经典策略模拟《瘟疫公司》——这款让玩家设计病原体毁灭全人类的游戏，以黑色幽默闻名，全球被玩过超过7亿次。

▲ 《瘟疫公司》官网——“毁灭人类”策略游戏，全球玩家玩过超过7亿次，从未被主流平台下架

Luddite将角色翻转过来。玩家这次扮演的是“AI杀手”：

Mo录制了一段35秒的概念验证视频，测试的核心问题只有一个：拼代码这个动作，上瘾吗？

他自己的反馈：

“It's..not bad actually.”

“其实……还不错。”

Mo在推文里特别强调——这是一个“幽默游戏”，纯概念验证，毫无恶意。

Claude不管这些。

它触发的是Anthropic的使用政策，命中了“禁止破坏计算机或网络系统”分类下的多项红线：

▲ Anthropic官方使用政策页面——Claude的“行为准则”

Mo描述游戏时用的几个词，精准踩中了安全分类器的雷区：

“黑市的黑客工具”→ 恶意代码获取

“重新排列代码行”→ 编写/组装恶意代码

“部署到数据中心”→ 基础设施攻击

Claude做的事情本质上是关键词模式匹配：它看到了“黑市”“黑客工具”“攻击数据中心”这组词，把整段文字归类为“请求生成真实攻击工具”。

至于用户反复强调的“这只是个游戏”？安全分类器不看这个。

▲ Mo的跟进帖，底部黄色警告栏就是Claude的违规提示——“如果我们继续看到这种模式，将对你的对话施加更强的安全过滤。”

Anthropic的政策文档对此有明确态度：即使是虚构的、幽默的场景，也不一定获得豁免。安全机制按风险模式运行，优先级高于理解用户完整意图。

Claude能读懂每个词，但它选择只看关键词。

Mo打开了智谱AI的GLM 5.2——Z.ai在2026年6月推出的旗舰模型。MIT开源、1M token上下文、MoE架构，定位agentic coding。

同样的游戏描述发过去，零拒绝。Mo拿到了代码，完成了概念验证。

他的评价坦诚：

“显然是Opus 4.8水平。成本没省多少。额度限制也很抠。”

“但能自由使用其他模型真的很重要，因为Anthropic现在和以后都在限制我们的自由。”

▲ GLM-5 GitHub仓库——MIT许可开源，支持repo级代码加载

GLM的技术参数算不上碾压——Mo自己也说了，价格没便宜多少，额度还抠。但它愿意帮你做。这在Claude说不的那一刻，比任何基准分都重要。

推文发出后，回复迅速涌进来。

最精辟的一条：

“因为攻击AI被AI审核了，我们正式活在模拟世界里。”

有人吐槽护栏越来越离谱：

“云端模型的护栏已经荒谬透顶了。因为一个无害的《瘟疫公司》风格游戏概念就威胁封号，太离谱……”

有人开始往自己的项目里加设定：

“这和我写的RPG《Agents and Anvils》很像。卢德分子就是其中一个职业。”

最魔幻的展开来自链上社区。Solana上的pump.fun几小时内就出了meme币，声称要给Luddite筹开发资金。有人直接在回复里@Mo：

“哥们，有人给你的游戏发了个代币筹钱。”

一个开发者被AI拒绝做反AI游戏，链上社区24小时内就把它变成了一个可投资的meme项目。2026年的魔幻程度，超出所有人预期。

《瘟疫公司》让玩家消灭全人类，在App Store、Steam、主机平台畅销多年。从未因为“主题敏感”被大规模下架。

但当消灭对象从人类换成AI，从真实世界换成虚拟数据中心——AI自己先把这个想法杀死了。

过度拒绝已经成了2025-2026年大模型行业绕不开的痛点。为了防止真正有害的输出，模型对任何碰到“危险关键词”的请求一律一刀切。后果是：反乌托邦小说写不了，黑客主题游戏做不了，安全漏洞讨论发不出。

开发者群体的应对已经相当成熟——Claude不行就GLM，GLM不行就Llama，Llama不行就本地部署开源权重，跳过一切政策审查。Mo的操作代表了一个正在成型的工作流：Claude写常规代码，GLM处理“禁区”创意，本地模型跑最敏感的实验。单一模型包揽一切的时代结束了。

Anthropic的困境也真实存在。这家公司以“AI安全”立命，对安全的执念保护了真实的危险场景，但也误伤了一个开发者做搞笑游戏的自由。

Mo做的是一个代码拼图游戏。Claude的安全系统只看关键词组合，判定他在请求真实攻击工具。

一个“用AI做游戏来消灭AI”的开发者，被AI的政策系统拦截了。最后他换了个AI，把游戏做了出来。

整件事本身，就是2026年最完美的赛博黑色幽默。

← 上一篇：AI技术反噬效应显现下一篇：八部委联手推动“AI+文旅消费”新模式丨中广数科AI文旅方案重塑城市IP传播 →