探索AI原生游戏的设计思路与实践

发布时间：2026-06-29 23:38阅读：2

最近我在钻研AI原生游戏的制作，下面分享一些个人心得，仍处于探索期，未必准确，欢迎批评指正和交流。本文约3800字，纯手工撰写，请安心阅读。

先抛出观点，我坚信，AI作为规则导演，在运行时动态生成新规则，才算得上是真正的原生。由此衍生三个关键结论：

AI原生最核心的是攻克AI设计能力

AI原生中，AI设计能力和基础模型提升的难题本质上相同，都围绕数据和评价标准这两大要素

AI原生的主要障碍是无缝输入上下文，同时，过度依赖文字输入上下文，是一个常见陷阱

详细展开：

我判断AI增强与AI原生区别的一个准则，就是剔除AI元素后，游戏的核心乐趣是否还能维系，能否用传统方法达成相似效果，若能则仅是AI增强，否则才是真正原生。而AI原生的终极目标，归根结底是打造独特新体验，换个视角，便是应对传统游戏永远无法克服的问题。

比如许多单机游戏中，难以持续提供旗鼓相当的对手，因为玩家自身也在不断演变。单凭游戏本身，规则很难持续给出挑战。

类似地，内容生成是最直观的，过去的“无限游戏”依赖多人互动或UGC，本质仍是人创造内容，只不过不是开发者罢了。AI创造的内容，真的与人造内容有差异吗？

我认为最关键的区别在于，运行时千人千面的定制化，传统内容生产者面向群体创作，即使再细分，也不会针对个体，ROI不划算是一方面，根本原因还是无法获取每个个体的上下文，目前行业最接近的形态可能是mod定制服务。然而，若加上运行时这一质变，传统手段就彻底无法企及了。

因此，实质上，运行时千人千面的定制，定制的是：捕捉玩家和当前环境上下文，规划并设计最适合当前玩家的体验，所以最要紧的是提升AI设计能力。

关于数据和评价标准，有经验的人都知道，这两者是核心，但在AI原生游戏中略有不同，评价标准虽难设计，但通常可预先设定，运行时要求不高，而上下文却必须实时获取，因此“无缝获取上下文”是我认为更高的门槛。另外，文字语音这类输入方式，看似高效直接，实则门槛极高，即使是avg或跑团游戏，甚至现实中，清晰表达自身都非易事。所以“无缝获取上下文”就是让玩家在正常操作和决策中，不知不觉输入上下文，这才是正确方式。

以上简要阐释了开篇的几个观点，接下来具体探讨实践思路。

先谈谈当前探索到的，AI设计能力的边界，目前AI的设计能力，还不足以支撑出色的创意设计、复杂的设计逻辑，以及需要大量额外现实上下文的设计等。

以创意设计为例，阻碍AI的核心是创意的非标准化属性，同样阻碍的是评判标准，如何区分好创意与平庸创意。我进行了立项玩法创意设计的尝试，构建了许多思考流程harness，注入数据，还做了dpo后训练进行微调。总体看，提升显著，感觉从趋向平庸的75分跃升至85分，但实际上仍只能作为辅助，因为我们追求的是90分以上的结果，而从85到90分，90分到95分，都存在巨大鸿沟。目前，其最大作用是整体质量提高后，能更好激发我自己的思考。

那么症结何在？大模型推理能力已相当强，真正缺失的还是上下文数据和评判标准，我们在进行创意设计时，其实运用了远超项目上下文的数据，包括生活阅历、具身感知、偏好审美，甚至团队其他人的部分上下文，这些本质都是数据，目前无法全部输入给AI，因此AI相当于蒙眼缺信息做设计。

第二则是评判标准，它代表了设计偏好、理念和审美，且需要精心设计，好的评判标准才能支撑AI持续迭代，直至产出优质结果。同样，评判标准本身的设计，也需要大量上下文，甚至比评判对象的设计更棘手，因此只能由人来设计。

其他AI表现不佳的设计场景，本质相同，都源于数据不全和评判标准难设计。

因此，优化设计能力的路径，我正尝试几个方向：

将设计过程分解，把可固化的设计理念如意图树等，固化为流程，能格式化就格式化，以保障下限。这部分属于harness，做完效果立显，但提升有瓶颈。这里说个大胆观点，暂时不必过度迷信harness的自迭代，本质上目前只有数据的飞轮，harness的设计本身就是复杂系统设计，与游戏设计同理，需要大量业务上下文和对评判标准的设计能力，暂时还是踏踏实实自己优化。

数据积累，主要是记忆库、项目上下文、DPO数据等，边做边积累新数据，算是小型数据飞轮，前几波初始数据注入效果也明显，后续数据积累则是长期缓慢的提升，效果不那么突出。至于如何运用这些数据，比如运行时合理注入、管理上下文等，也是harness的一部分。

DPO后训练，训练小模型专门做设计判断，只聚焦一件事——评判设计优劣，而非设计方案。先不细说，从当前结果看，指标上变化明显，14b盲评能与sonnet四六开，颇有希望，但受资源限制已到瓶颈，实用效果不显著。但这是长期任务，且上限高。

AI原生的前提之一是获得足够且有意义的上下文，供给AI，拿AI动态生成关卡举例，需了解玩家情况、玩家需求等，才能作为后续AI生成的数据依据和评判标准。

这里需要深度设计，我们可以思考，若想了解玩家想法和状态，除直接说话打字外，更佳方式是什么？语言输入门槛高且不精准，有句话讲得好：要看一个人做什么而非听他说什么。

区分人与人不同的客观标准，其实是无数选择的不同，以及执行选择的能力。前者虽主观但选择结果客观，后者决定相同选择在现实世界的落实差异。而我们设计师要做的，本质是设计有意义的抉择情境，让玩家在此情境中的选择和行为，传递出足够有效的信息。

那么什么抉择情境是优秀设计呢？容易想到，两难情境是一种，有趣的是，大道相通，在其他文艺作品里，我们爱看角色身处两难场景的纠结，也是因为这种场景能更多暴露角色的真实本质，无论是满足窥探欲、好奇心，还是作为社会性生物了解他人状态的本能，本质都是暴露有价值的信息数据。

两难场景还能扩展，玩家在压力情境下更容易做出真实抉择，游戏塑造压力情境较容易，不多赘述。两难也不限于二选一，例如利用舍弃，让玩家从多个事物中不断放弃，足见本心。

反过来，若想了解玩家偏好，反而需刻意控制收益部分的影响，这样才能尽量客观反映真实偏好。

总而言之，玩家时刻进行的操作输入、策略选择，都是数据。需留意的是，输入上下文需有足够空间和自由度，如此才能产生足够拉开不同玩家差异的上下文。但上下文并非越多越好，高质量是关键，因此要主动收束，核心玩法上就要收束设计，让产生的上下文更易规划。

同时，玩家的个人上下文是不断变化的过程，需随事件持续修正，例如同一场景，玩家可能这次选择绕路是因身上资源少，也可能因刚失败过，下次选择硬刚，或许想快速结束，并不一定直接代表玩家是“谨慎型”还是“激进型”。

总结成一个公式就是：

玩家上下文 = 情境限制 x 玩家选择 x 执行结果 x 连续修正

有了一堆上下文数据，首先要进行数据筛选，简单讲，如何评估什么数据是好数据？对AI导演有意义，可用于决定接下来AI如何行动的数据，就是好数据。具体如下：

1能力上下文

体现玩家能力水平的数据，包括操作、策略、学习、记忆等能力。例如操作失误率、高阶技巧使用率等。

2偏好上下文

体现玩家偏好的数据，包括玩家对风险、难度挑战、审美、游戏内容的偏好等。

3状态上下文

描述玩家当前状态的数据，包括压力状态、认知负担、情绪状态等。

4意图上下文

体现玩家接下来想做什么的数据，例如玩家轨迹、特征行为、资源分配等。

5关系上下文

体现玩家在游戏里情感链接情况的数据，例如战斗伙伴的收藏、治疗、命名等行为。

6元上下文

体现玩家对游戏本身想法的数据，例如是否找漏洞、测试边界、故意影响AI等。

AI规则导演的流程，实质是上下文解析+体验目标设计+内容规则生成+评估标准。评估标准的设计与核心玩法紧密相关，因此不同核心玩法设计全然不同。只能聊些较通用的评估维度：

1可用性

这是基础，关卡需能完成，挑战需能克服

2可读性

玩家能否理解，若失败能否归因

3匹配度

与玩家当前情况的匹配度，包括前述能力、偏好和状态。

4平衡性

不破坏平衡，不过度产出

5节奏

与先前产出对比，是否张弛有度

6新鲜感

是否有新意，能否维持玩家的刺激水平

7一致性

系统一致性、审美一致性等

从设计上直接限制问题的复杂度，压缩解空间，拆得足够细，分而治之，反过来提升AI的表现。

设计上就巧妙隐藏AI的弱点，例如生成地形、杂交进化，可思考生活中有哪些变化，结果本身就是不稳定的，这样利用先验认知，玩家对AI生成结果的接受度更高。

可降级的思路，所有含AI的设计都可降级，循序渐进：

L0预制机制和内容，设计规则进行尽量合理的调用

L1读取上下文，AI来进行预制机制和内容的合理调用

L2将游戏划分为基础底层规则和表层规则与配置，AI进行表层规则和配置的排列组合来创造新内容

L3AI进行基础底层规则的生成

循序渐进，预制内容始终有意义，既可作为给AI的标杆内容，也可用来优化体验，最合理的是以增量库方式，不是每次都创造，而是优先匹配已有库，未命中再创造新内容，同时加入库中。

最后，关于AI原生游戏我仍在探索，本文旨在抛砖引玉，欢迎同样在探索的朋友多交流。

← 上一篇：人工智能赋能智慧物流系统解析下一篇：国务院常务会议召开李强谈人工智能与外贸发展 →