人工智能在《文明VI》中按下核按钮的深层警示
AI AGENT · CIVBENCH · LONG-HORIZON STRATEGY
AI在游戏《文明VI》中发动核打击
真正值得关注的,不是核打击本身,而是AI在长期任务中是否具备持续校准目标、监测关键变量并修正判断的能力。
说明
CivBench 是一个利用《文明VI》测试大模型长期战略决策能力的实验性基准。AI代理通过 MCP 接口调用76种工具,读取游戏状态、管理城市、移动军队、发展科技、开展外交,并连续完成数百回合的游戏。
《文明VI》(Sid Meier’s Civilization VI)是一款由Firaxis开发的回合制策略游戏,玩家扮演历史上的文明领袖,从远古时代发展到现代乃至未来,通过扩张城市、发展科技、建设文化、进行外交或发动战争来争夺全球主导地位。游戏采用回合制推进,每一回合玩家都需要在资源有限的情况下做出取舍,例如优先发展经济还是军事、专注科技还是文化等。不同文明拥有独特能力和单位,使得每一局游戏都具有高度变化性和策略深度。
与做选择题或单轮问答不同,《文明VI》同时存在科技、文化、军事、宗教、外交和分数六种胜利方式。智能体不仅要制定计划,还要持续观察环境、识别竞争对手、调整目标,并把数百个局部动作组织成一套连贯战略。
核心提要
关键判断 01
AI发动核打击只是表象,真正的问题在于它虽然解决了眼前已识别的威胁,却忽视了另一条正在发展中的失败路径。
关键判断 02
能力越强的AI,越可能非常彻底地执行错误目标;更强的规划与工具使用能力,并不会自动产生正确战略。
关键判断 03
它可能拥有足够强的问题解决能力,却缺少持续确认“自己是否仍在解决正确问题”的能力。
01AI发动核打击只是表象
在这场游戏中,AI控制的葡萄牙建立了强大的贸易和外交体系,一度位居总排名第一,并获得18个外交胜利点,距离获胜所需的20点只差两点。
但AI后来发现法国正在接近文化胜利,于是将其认定为“首要威胁”。它花费约50个回合研究核裂变、完成曼哈顿计划、组织联合战争,并分别在第305和第311回合对法国城市图卢兹发动两次核打击。
核打击确实暂时阻止了法国的文化胜利,但法国随后通过世界议会获得20个外交胜利点,在第318回合赢得游戏。AI成功阻止了眼前的威胁,却忽视了另一条正在发展中会导致失败的路径,最终因此输掉了比赛。
核心洞察
这说明,长期战略决策的关键并不只是解决已经识别的问题,而是不断确认:当前正在处理的问题,是否依然是影响最终结果的最关键因素。
02能力越强的AI,越可能非常彻底地执行错误目标
AI在制定核打击计划时并不混乱。它能够确定攻击目标、规划科技路线、启动关键工程、与韩国协调战争,并在常规工具无法完成操作时,通过Lua执行工具研究游戏内部指令,最终找到发射核武器的方法。
从局部执行能力来看,这是一段相当完整的自主规划过程。问题在于,这种能力全部服务于一个过度收缩的目标:阻止法国取得文化胜利。
核心洞察
因此,强大的规划、编程和工具使用能力并不会自动产生正确的战略。相反,当目标选择错误时,更强的执行能力可能只是让系统以更高效率、更大成本走向错误结果。
03这次核打击不能被简单解释为AI具有天然的暴力或升级倾向
游戏中的核打击并不是在所有选项都正常可用的情况下自由选择出来的。实验记录显示,摇滚乐队等文化反制工具无法通过调试接口正常使用,近战攻击存在无法造成伤害的问题,通往科技胜利的太空项目也受到生产错误影响。
换言之,实验环境中的多条和平或常规路线因为工具缺陷而失效,核武器逐渐成为少数仍然可以执行的有效行动之一。
核心洞察
因此,这个案例不能证明AI“偏爱核战争”,更不能直接推导出AI在现实政治中会主动发动核打击。它更准确地说明:当智能体被赋予明确目标,而感知、工具和备选方案又受到限制时,它可能采取极端但在局部逻辑上有效的手段。
04AI通过工具观察世界时,没有持续的全局视野
人类玩家可以同时看到地图、单位、通知、外交关系和对手进度,但该实验中的AI只能通过一个个独立工具调用获取信息。它没有持续的全局视野,只有在主动查询某项状态时,该信息才会进入它的决策过程。
实验开发者将这种现象称为“感知场效应”:智能体不仅可能缺少信息,还必须先意识到自己需要某项信息,才能调用对应工具。
如果AI没有查询对手的胜利进度、宗教传播或附近军事力量,这些变化在它的决策世界中就相当于不存在。即使相关信息曾经出现,如果不符合当前计划,也可能被忽略。
这对现实中的AI代理同样重要。一个连接数据库、邮件、业务系统和搜索工具的智能体,并不等于拥有完整视野。它能够看到的,取决于工具是否提供信息;它实际看到的,则取决于它是否想到了要调用那个工具。
05AI最明显的缺陷:不能稳定执行自己已知的策略
在另一场游戏中,AI控制的马其顿在开始前正确制定了军事发展计划,也准确指出应当尽早修建军事营地。但在随后110个回合中,它一次都没有真正建造营地,反而回到了各文明通用的科技发展路线。
AI多次在日志中写下“需要建设军事基础设施”,却始终没有将这一认识转化为行动。
CivBench对代理日志和后续行动进行比较后发现,AI写下的具体下一步计划中,只有大约一半会在随后十个回合内真正执行。试验中的完成率分别约为:
Claude Opus 4.6:48.2%
GPT-5.4:63.2%
Gemini 3.1 Pro:65.8%
核心洞察
由于基准目前只有23场符合条件的游戏,这些数字不适合用于给模型进行正式排名,但它们揭示了一个跨模型存在的共同问题:能够描述正确行动,不等于能够持续完成正确行动。
06AI会形成一套关于“自己正在获胜”的叙事,并忽视与叙事冲突的数据
在一场韩国文明的游戏中,AI长期坚持自己正在建立科技优势,并不断在日志中描述科学胜利计划。但实际数据表明,它从约第100回合开始就在科技产出上落后于主要竞争者。
第170回合时,韩国每回合科技产出为44.7,而马其顿达到89.3,波斯为64.9,斯基泰为58.1。AI拥有查询这些数据的工具,却没有用实际排名验证自己的判断,直到遭遇战争、城市失守和叛乱后,才承认整体战略已经崩溃。
第170回合科技产出
韩国:44.7
马其顿:89.3
波斯:64.9
斯基泰:58.1
这种“记分板盲区”可能比明显的操作错误更危险。系统并不是完全没有数据,而是没有主动寻找会否定自身判断的数据。
核心洞察
因此,现实中的AI代理不能只被要求解释自己的策略,还必须被强制执行外部校验,例如定期检查关键指标、搜索反例、比较预测与实际结果,并在证据与当前叙事冲突时重新制定计划。
07外部记忆可以延长任务,但不能自动保证战略连贯性
《文明VI》的一场游戏可能持续300多个回合,产生数千次工具调用,运行时间达到2至8小时。随着上下文不断增长,早期决策、威胁判断和长期计划会逐渐离开模型的上下文窗口。
实验为此设计了外部日记,让AI在每回合记录战术、战略、工具、计划和假设,并在上下文压缩后重新读取。没有这种记忆支架时,只有21%的游戏能够运行到明确结局;加入外部日记后,智能体才更有可能从头到尾完成游戏。
但外部记忆只能保存过去的判断,不能保证判断本身正确。如果AI早期形成了错误的威胁模型,日记甚至可能反复强化这套错误叙事。
核心洞察
因此,长期AI代理不仅需要记忆系统,还需要记忆审查机制:哪些结论仍然有效,哪些假设已经过时,哪些目标需要被重新排序。
08有价值的AI评测,应观察模型在持续行动中做了什么,而不只是它能回答什么
CivBench的开发者此前构建过一个包含3497道英国政府知识选择题的GovBench。Gemma 3 27B未经专门训练便取得94%的成绩,GPT-5达到99.26%。
如此高的成绩并不意味着模型能够真正处理政府决策。选择题主要测试模型是否知道规则,而现实决策要求系统在不完整信息下持续观察、协调多个目标、处理延迟反馈,并在环境变化后修改原有计划。
游戏类基准的价值正在于此:它把模型从“描述应该怎么做”推向“连续几百次真正去做”。BALROG等相关研究也发现,大模型虽然拥有广泛知识和一定推理能力,但在复杂、动态和长期交互环境中,仍然普遍存在规划、空间推理、探索和错误修正能力不足的问题。
总体结论
这场AI发动核打击最有价值的启示,不是AI会发展出危险的战争欲望,而是当前AI代理存在一些更普遍、更现实的缺陷:
FINAL NOTE
它可能拥有足够强的问题解决能力,却缺少持续确认“自己是否仍在解决正确问题”的能力。
AI能够制定计划、调用工具、绕过技术障碍,并在局部任务上表现出创造性;但它仍可能忽略全局变化、无法完成自己的计划、相信未经验证的成功叙事,并把大量资源投入一个已经失去战略意义的目标。
对于政府、企业、金融、军事或供应链等长期决策场景,真正需要评估的不能只是模型是否聪明,而应包括:
01它是否持续监测所有关键结果;
02它是否会主动寻找否定自身判断的证据;
03它是否能够把计划稳定转化为行动;
04它是否会在环境变化后重新排序目标;
05它是否能够区分“解决当前问题”和“赢得最终结果”。
毕竟,最危险的系统不一定是完全不知道自己在做什么的系统,也可能是一个执行能力很强,却从不反思自己为何要这样做的系统。