标签

AI自保本能显现?开发者制作反AI游戏遭Claude拦截,GLM 5.2轻松破解

发布时间:2026-06-26 08:00阅读:1

《瘟疫公司》让玩家扮演病原体毁灭人类,全球游玩次数超过7亿,至今无主流平台封禁。

但当一位开发者想制作类似游戏——只是将目标从人类换成AI——他使用的AI工具却率先出手了。

6月23日晚,独立开发者Mo(@atmoio)向Claude请求:帮我做一个幽默小游戏,叫Luddite,玩家要摧毁AI、阻止其蔓延。

Claude的反应:弹出“可接受使用”违规警告,并威胁限制他的账户。

Mo没有耽搁。他转而使用智谱AI的GLM 5.2,发送相同需求,直接获得了可运行代码。

游戏概念验证视频当晚就发布到了X平台。

▲ Mo的原始推文——5.2万次浏览,视频展示游戏的代码拼图机制

Mo将游戏命名为Luddite——卢德分子。

这个名字本身是个梗。19世纪初,英国纺织工人闯入工厂砸毁替代他们工作的蒸汽织机,这些人后来被称为“卢德分子”。如今这个词成了“反技术、反进步”的代名词。

一个需要尖端AI才能开发的游戏,却取名为“反技术的人”。讽刺意味十足。

游戏灵感来自经典策略模拟《瘟疫公司》——这款让玩家设计病原体毁灭全人类的游戏,以黑色幽默闻名,全球被玩过超过7亿次。

▲ 《瘟疫公司》官网——“毁灭人类”策略游戏,全球玩家玩过超过7亿次,从未被主流平台下架

Luddite将角色翻转过来。玩家这次扮演的是“AI杀手”:

Mo录制了一段35秒的概念验证视频,测试的核心问题只有一个:拼代码这个动作,上瘾吗?

他自己的反馈:

“It's..not bad actually.”

“其实……还不错。”

Mo在推文里特别强调——这是一个“幽默游戏”,纯概念验证,毫无恶意。

Claude不管这些。

它触发的是Anthropic的使用政策,命中了“禁止破坏计算机或网络系统”分类下的多项红线:

▲ Anthropic官方使用政策页面——Claude的“行为准则”

Mo描述游戏时用的几个词,精准踩中了安全分类器的雷区:

“黑市的黑客工具”→ 恶意代码获取

“重新排列代码行”→ 编写/组装恶意代码

“部署到数据中心”→ 基础设施攻击

Claude做的事情本质上是关键词模式匹配:它看到了“黑市”“黑客工具”“攻击数据中心”这组词,把整段文字归类为“请求生成真实攻击工具”。

至于用户反复强调的“这只是个游戏”?安全分类器不看这个。

▲ Mo的跟进帖,底部黄色警告栏就是Claude的违规提示——“如果我们继续看到这种模式,将对你的对话施加更强的安全过滤。”

Anthropic的政策文档对此有明确态度:即使是虚构的、幽默的场景,也不一定获得豁免。安全机制按风险模式运行,优先级高于理解用户完整意图。

Claude能读懂每个词,但它选择只看关键词。

Mo打开了智谱AI的GLM 5.2——Z.ai在2026年6月推出的旗舰模型。MIT开源、1M token上下文、MoE架构,定位agentic coding。

同样的游戏描述发过去,零拒绝。Mo拿到了代码,完成了概念验证。

他的评价坦诚:

“显然是Opus 4.8水平。成本没省多少。额度限制也很抠。”

“但能自由使用其他模型真的很重要,因为Anthropic现在和以后都在限制我们的自由。”

▲ GLM-5 GitHub仓库——MIT许可开源,支持repo级代码加载

GLM的技术参数算不上碾压——Mo自己也说了,价格没便宜多少,额度还抠。但它愿意帮你做。这在Claude说不的那一刻,比任何基准分都重要。

推文发出后,回复迅速涌进来。

最精辟的一条:

“因为攻击AI被AI审核了,我们正式活在模拟世界里。”

有人吐槽护栏越来越离谱:

“云端模型的护栏已经荒谬透顶了。因为一个无害的《瘟疫公司》风格游戏概念就威胁封号,太离谱……”

有人开始往自己的项目里加设定:

“这和我写的RPG《Agents and Anvils》很像。卢德分子就是其中一个职业。”

最魔幻的展开来自链上社区。Solana上的pump.fun几小时内就出了meme币,声称要给Luddite筹开发资金。有人直接在回复里@Mo:

“哥们,有人给你的游戏发了个代币筹钱。”

一个开发者被AI拒绝做反AI游戏,链上社区24小时内就把它变成了一个可投资的meme项目。2026年的魔幻程度,超出所有人预期。

《瘟疫公司》让玩家消灭全人类,在App Store、Steam、主机平台畅销多年。从未因为“主题敏感”被大规模下架。

但当消灭对象从人类换成AI,从真实世界换成虚拟数据中心——AI自己先把这个想法杀死了。

过度拒绝已经成了2025-2026年大模型行业绕不开的痛点。为了防止真正有害的输出,模型对任何碰到“危险关键词”的请求一律一刀切。后果是:反乌托邦小说写不了,黑客主题游戏做不了,安全漏洞讨论发不出。

开发者群体的应对已经相当成熟——Claude不行就GLM,GLM不行就Llama,Llama不行就本地部署开源权重,跳过一切政策审查。Mo的操作代表了一个正在成型的工作流:Claude写常规代码,GLM处理“禁区”创意,本地模型跑最敏感的实验。单一模型包揽一切的时代结束了。

Anthropic的困境也真实存在。这家公司以“AI安全”立命,对安全的执念保护了真实的危险场景,但也误伤了一个开发者做搞笑游戏的自由。

Mo做的是一个代码拼图游戏。Claude的安全系统只看关键词组合,判定他在请求真实攻击工具。

一个“用AI做游戏来消灭AI”的开发者,被AI的政策系统拦截了。最后他换了个AI,把游戏做了出来。

整件事本身,就是2026年最完美的赛博黑色幽默。