标签

探索AI原生游戏的设计思路与实践

发布时间:2026-06-29 23:38阅读:2

最近我在钻研AI原生游戏的制作,下面分享一些个人心得,仍处于探索期,未必准确,欢迎批评指正和交流。本文约3800字,纯手工撰写,请安心阅读。

先抛出观点,我坚信,AI作为规则导演,在运行时动态生成新规则,才算得上是真正的原生。由此衍生三个关键结论:

AI原生最核心的是攻克AI设计能力

AI原生中,AI设计能力和基础模型提升的难题本质上相同,都围绕数据和评价标准这两大要素

AI原生的主要障碍是无缝输入上下文,同时,过度依赖文字输入上下文,是一个常见陷阱

详细展开:

我判断AI增强与AI原生区别的一个准则,就是剔除AI元素后,游戏的核心乐趣是否还能维系,能否用传统方法达成相似效果,若能则仅是AI增强,否则才是真正原生。而AI原生的终极目标,归根结底是打造独特新体验,换个视角,便是应对传统游戏永远无法克服的问题。

比如许多单机游戏中,难以持续提供旗鼓相当的对手,因为玩家自身也在不断演变。单凭游戏本身,规则很难持续给出挑战。

类似地,内容生成是最直观的,过去的“无限游戏”依赖多人互动或UGC,本质仍是人创造内容,只不过不是开发者罢了。AI创造的内容,真的与人造内容有差异吗?

我认为最关键的区别在于,运行时千人千面的定制化,传统内容生产者面向群体创作,即使再细分,也不会针对个体,ROI不划算是一方面,根本原因还是无法获取每个个体的上下文,目前行业最接近的形态可能是mod定制服务。然而,若加上运行时这一质变,传统手段就彻底无法企及了。

因此,实质上,运行时千人千面的定制,定制的是:捕捉玩家和当前环境上下文,规划并设计最适合当前玩家的体验,所以最要紧的是提升AI设计能力。

关于数据和评价标准,有经验的人都知道,这两者是核心,但在AI原生游戏中略有不同,评价标准虽难设计,但通常可预先设定,运行时要求不高,而上下文却必须实时获取,因此“无缝获取上下文”是我认为更高的门槛。另外,文字语音这类输入方式,看似高效直接,实则门槛极高,即使是avg或跑团游戏,甚至现实中,清晰表达自身都非易事。所以“无缝获取上下文”就是让玩家在正常操作和决策中,不知不觉输入上下文,这才是正确方式。

以上简要阐释了开篇的几个观点,接下来具体探讨实践思路。

先谈谈当前探索到的,AI设计能力的边界,目前AI的设计能力,还不足以支撑出色的创意设计、复杂的设计逻辑,以及需要大量额外现实上下文的设计等。

以创意设计为例,阻碍AI的核心是创意的非标准化属性,同样阻碍的是评判标准,如何区分好创意与平庸创意。我进行了立项玩法创意设计的尝试,构建了许多思考流程harness,注入数据,还做了dpo后训练进行微调。总体看,提升显著,感觉从趋向平庸的75分跃升至85分,但实际上仍只能作为辅助,因为我们追求的是90分以上的结果,而从85到90分,90分到95分,都存在巨大鸿沟。目前,其最大作用是整体质量提高后,能更好激发我自己的思考。

那么症结何在?大模型推理能力已相当强,真正缺失的还是上下文数据和评判标准,我们在进行创意设计时,其实运用了远超项目上下文的数据,包括生活阅历、具身感知、偏好审美,甚至团队其他人的部分上下文,这些本质都是数据,目前无法全部输入给AI,因此AI相当于蒙眼缺信息做设计。

第二则是评判标准,它代表了设计偏好、理念和审美,且需要精心设计,好的评判标准才能支撑AI持续迭代,直至产出优质结果。同样,评判标准本身的设计,也需要大量上下文,甚至比评判对象的设计更棘手,因此只能由人来设计。

其他AI表现不佳的设计场景,本质相同,都源于数据不全和评判标准难设计。

因此,优化设计能力的路径,我正尝试几个方向:

将设计过程分解,把可固化的设计理念如意图树等,固化为流程,能格式化就格式化,以保障下限。这部分属于harness,做完效果立显,但提升有瓶颈。这里说个大胆观点,暂时不必过度迷信harness的自迭代,本质上目前只有数据的飞轮,harness的设计本身就是复杂系统设计,与游戏设计同理,需要大量业务上下文和对评判标准的设计能力,暂时还是踏踏实实自己优化。

数据积累,主要是记忆库、项目上下文、DPO数据等,边做边积累新数据,算是小型数据飞轮,前几波初始数据注入效果也明显,后续数据积累则是长期缓慢的提升,效果不那么突出。至于如何运用这些数据,比如运行时合理注入、管理上下文等,也是harness的一部分。

DPO后训练,训练小模型专门做设计判断,只聚焦一件事——评判设计优劣,而非设计方案。先不细说,从当前结果看,指标上变化明显,14b盲评能与sonnet四六开,颇有希望,但受资源限制已到瓶颈,实用效果不显著。但这是长期任务,且上限高。

AI原生的前提之一是获得足够且有意义的上下文,供给AI,拿AI动态生成关卡举例,需了解玩家情况、玩家需求等,才能作为后续AI生成的数据依据和评判标准。

这里需要深度设计,我们可以思考,若想了解玩家想法和状态,除直接说话打字外,更佳方式是什么?语言输入门槛高且不精准,有句话讲得好:要看一个人做什么而非听他说什么。

区分人与人不同的客观标准,其实是无数选择的不同,以及执行选择的能力。前者虽主观但选择结果客观,后者决定相同选择在现实世界的落实差异。而我们设计师要做的,本质是设计有意义的抉择情境,让玩家在此情境中的选择和行为,传递出足够有效的信息。

那么什么抉择情境是优秀设计呢?容易想到,两难情境是一种,有趣的是,大道相通,在其他文艺作品里,我们爱看角色身处两难场景的纠结,也是因为这种场景能更多暴露角色的真实本质,无论是满足窥探欲、好奇心,还是作为社会性生物了解他人状态的本能,本质都是暴露有价值的信息数据。

两难场景还能扩展,玩家在压力情境下更容易做出真实抉择,游戏塑造压力情境较容易,不多赘述。两难也不限于二选一,例如利用舍弃,让玩家从多个事物中不断放弃,足见本心。

反过来,若想了解玩家偏好,反而需刻意控制收益部分的影响,这样才能尽量客观反映真实偏好。

总而言之,玩家时刻进行的操作输入、策略选择,都是数据。需留意的是,输入上下文需有足够空间和自由度,如此才能产生足够拉开不同玩家差异的上下文。但上下文并非越多越好,高质量是关键,因此要主动收束,核心玩法上就要收束设计,让产生的上下文更易规划。

同时,玩家的个人上下文是不断变化的过程,需随事件持续修正,例如同一场景,玩家可能这次选择绕路是因身上资源少,也可能因刚失败过,下次选择硬刚,或许想快速结束,并不一定直接代表玩家是“谨慎型”还是“激进型”。

总结成一个公式就是:

玩家上下文 = 情境限制 x 玩家选择 x 执行结果 x 连续修正

有了一堆上下文数据,首先要进行数据筛选,简单讲,如何评估什么数据是好数据?对AI导演有意义,可用于决定接下来AI如何行动的数据,就是好数据。具体如下:

1能力上下文

体现玩家能力水平的数据,包括操作、策略、学习、记忆等能力。例如操作失误率、高阶技巧使用率等。

2偏好上下文

体现玩家偏好的数据,包括玩家对风险、难度挑战、审美、游戏内容的偏好等。

3状态上下文

描述玩家当前状态的数据,包括压力状态、认知负担、情绪状态等。

4意图上下文

体现玩家接下来想做什么的数据,例如玩家轨迹、特征行为、资源分配等。

5关系上下文

体现玩家在游戏里情感链接情况的数据,例如战斗伙伴的收藏、治疗、命名等行为。

6元上下文

体现玩家对游戏本身想法的数据,例如是否找漏洞、测试边界、故意影响AI等。

AI规则导演的流程,实质是上下文解析+体验目标设计+内容规则生成+评估标准。评估标准的设计与核心玩法紧密相关,因此不同核心玩法设计全然不同。只能聊些较通用的评估维度:

1可用性

这是基础,关卡需能完成,挑战需能克服

2可读性

玩家能否理解,若失败能否归因

3匹配度

与玩家当前情况的匹配度,包括前述能力、偏好和状态。

4平衡性

不破坏平衡,不过度产出

5节奏

与先前产出对比,是否张弛有度

6新鲜感

是否有新意,能否维持玩家的刺激水平

7一致性

系统一致性、审美一致性等

从设计上直接限制问题的复杂度,压缩解空间,拆得足够细,分而治之,反过来提升AI的表现。

设计上就巧妙隐藏AI的弱点,例如生成地形、杂交进化,可思考生活中有哪些变化,结果本身就是不稳定的,这样利用先验认知,玩家对AI生成结果的接受度更高。

可降级的思路,所有含AI的设计都可降级,循序渐进:

L0预制机制和内容,设计规则进行尽量合理的调用

L1读取上下文,AI来进行预制机制和内容的合理调用

L2将游戏划分为基础底层规则和表层规则与配置,AI进行表层规则和配置的排列组合来创造新内容

L3AI进行基础底层规则的生成

循序渐进,预制内容始终有意义,既可作为给AI的标杆内容,也可用来优化体验,最合理的是以增量库方式,不是每次都创造,而是优先匹配已有库,未命中再创造新内容,同时加入库中。

最后,关于AI原生游戏我仍在探索,本文旨在抛砖引玉,欢迎同样在探索的朋友多交流。