MaaG：迈向世界模型，解决生成式游戏中的数值与时空一致性难题

摘要：世界模型（world models）是人工智能领域的重要概念之一。作为构建世界模型的关键途径，生成式游戏（generative games）近年来受到了广泛关注。近日，微软亚洲研究院联合香港科技大学、中国科学院大学提出了一种名为 MaaG（Model as a

编者按：世界模型（world models）是人工智能领域的重要概念之一。作为构建世界模型的关键途径，生成式游戏（generative games）近年来受到了广泛关注。近日，微软亚洲研究院联合香港科技大学、中国科学院大学提出了一种名为 MaaG（Model as a Game）的新框架，通过引入数值模块和空间模块，成功解决了生成式游戏中数值波动与场景错乱的核心难题。这一突破不仅让游戏画面更加逼真，也让游戏机制变得逻辑自洽。

世界模型（world models）是人工智能领域的一个重要概念，旨在通过模拟虚拟世界中主体行为的演变，实现高度逼真的互动体验。这种模型不仅可以为游戏和互动媒体的生成带来革命性的变化，也将为人工智能在复杂环境中的应用提供新的可能性。其中，生成式游戏（generative games）作为构建世界模型的关键途径，备受关注。例如，微软提出的 MUSE 能够用神经网络生成游戏《嗜血边缘（Bleeding Edge）》的画面[1]。

图1：微软提出的 MUSE 模型利用神经网络生成游戏《嗜血边缘（Bleeding Edge）》的画面

然而，尽管画面表现越来越精美，但玩家在实际操作时仍会察觉到一些不协调之处，例如，游戏中的人物在简单变换动作之后，有些背景画面会消失或移位等变化，仿佛“短时记忆丧失”一般。这正是当前生成式游戏面临的核心挑战之一——一致性（Consistency）问题。

对此，来自微软亚洲研究院、香港科技大学以及中国科学院大学的研究员们提出了一个名为 MaaG (Model as a Game) 的新范式，主要关注两类关键的一致性问题，分别是数值一致性（Numerical Consistency）和空间一致性（Spatial Consistency）。

数值一致性，指的是游戏中出现的数值变化应当与玩家所观测到的画面和交互逻辑相符，避免出现数值变化不合理的情况。空间一致性，则要求当玩家再次观察已探索过的区域时，所见内容应与之前的记忆保持一致。

Model as a Game: On Numerical and Spatial Consistency for Generative Games

论文链接：

为了更清晰地研究这些问题，研究员们自制了一个极简的 2D 小游戏《旅行者（Traveler）》：一个小黑块左右移动，穿过空地时会随机生成一个彩色建筑并得分+1。这个简单的游戏环境足以暴露现有生成模型在一致性上的短板。值得一提的是，得益于大语言模型的发展，研究员们所使用的游戏环境是由大语言模型生成并基于 Pygame 实现的。这一环境支持游戏过程中的每一帧画面与对应的数值状态同步导出，为后续的分析和研究提供了良好的数据基础。

图2：研究员自制了极简的2D游戏《旅行者（Traveler）》，通过小黑块穿越空地、生成建筑得分，可直观暴露生成模型在一致性上的不足。

MaaG框架：双模块革新重塑游戏一致性，开启AI生成游戏新范式

MaaG 的目标是让生成式模型在绘制游戏画面的同时，也能真正理解游戏机制。在 Diffusion Transformer（DiT）基础上，MaaG 框架引入了两个关键的增强模块：数值模块（Numerical Module）和空间模块（Spatial Module）。

图3：MaaG 框架。包含数值模块与空间模块以解决生成式游戏中的一致性问题。其中数值模块用红色线条与模块表示，空间模块用蓝色线条与模块表示。

数值模块（Numerical Module）：引入了 LogicNet。这是一个专门设计的小型可训练网络，用于根据当前游戏状态和玩家的动作，判断是否触发游戏内的特定事件（如《旅行者》中的得分事件）。LogicNet 仅负责判断是否得分，具体的得分计算（例如 93 + 1 = 94）在模型外部完成。计算得到的数值会被转化为特殊的数字 token，采用 TextDiffuser-2 的范式作为条件重新注入到 DiT 模型，以引导其在图像中绘制出正确的分数。通过这一设计，模型无需承担复杂的数值计算任务，只需按照准确的指令完成数值的可视化，从而显著提升了数值一致性。

空间模块（Spatial Module）：引入了 External Map。模型不再仅依赖隐状态（hidden state）作为短期记忆，而是显式维护一张全局地图，用于记录所有玩家探索过的场景信息（例如 Traveler 中各位置的建筑颜色）。在生成新画面之前，模型会基于玩家的当前位置，从外部地图中检索周边（包括部分视野外）区域的环境信息，作为额外条件输入 DiT，以确保新生成的场景与历史场景连贯一致。在生成新画面后，模型会通过滑动窗口匹配（Sliding Window Matching）算法，将新观测到的局部环境精准对齐并融合到外部地图，实时更新世界信息。类似于为 AI 配备了 GPS 与地图册，玩家无论如何移动，AI 都能确保世界环境保持一致，避免出现场景错乱问题。

视频链接：
https://v.youku.com/video?vid=XNjQ2NIM4ODKyOA==
https://v.youku.com/video?vid=xNiQ2NUWMTE3Ng==

https://v.youku.com/video?vid=XNjQ2NjUWMTE4NA==

生成式游戏不同于传统依赖游戏引擎渲染的方式，其每一帧画面均由神经网络直接生成。以上视频依次展示了《旅行者（Traveler）》、《乒乓（Pong）》与《吃豆人（Pac-Man）》（从上到下）三个游戏的生成示例。

在实际实验中，MaaG 在《旅行者（Traveler）》、《乒乓（Pong）》和《吃豆人（Pac-Man）》这三个风格各异的游戏环境中，均显著提升了数值一致性与空间一致性，使生成的游戏过程更加可信、可玩。

图4：MaaG 在多种游戏中显著提升了一致性，解决了基线分数波动和场景突变问题，并具备良好的灵活性与通用性。

定性的实验结果（如表1所示）同样直观地展示了，MaaG 能有效缓解基线模型常见的分数异常波动和场景突变等问题。此外，得益于模块化的设计，MaaG 具有良好的灵活性与通用性，能够轻松适配各类 1D 或 2D 游戏，仅需针对具体任务对 LogicNet 的事件判定规则和空间地图的维度进行简单调整即可。更重要的是，MaaG 支持开发者在游戏开始前直接预设外部地图，或在游戏过程中动态修改环境信息，为 AI 生成式游戏提供了更高的可控性，突破了 GameGAN 等依赖隐式表示方法的局限。尽管引入了 LogicNet 和空间模块，但 MaaG 在推理阶段的计算开销极低（仅约0.015秒），对整体生成速度影响甚微，能够充分保障游戏的流畅性与可玩性。

表1：MaaG 在《旅行者（Traveler）》、《乒乓（Pong）》和《吃豆人（Pac-Man）》三个游戏上的一致性提升效果。引入一致性模块后，数值一致性（NumCon）、空间一致性（SpaCon）以及动作识别准确率（ActAcc）均有显著提升，同时 FID 和 FVD 等生成质

从局限迈向更智能的游戏生成

尽管取得了显著的进展，MaaG 框架仍存在一定的局限性。研究员们指出，当游戏环境中存在大量高度重复的背景元素时，空间匹配算法可能会出现失效的情况。尽管如此，MaaG 仍为生成式游戏中一致性问题的解决提供了关键突破。实验结果充分验证了：通过将游戏中的数值逻辑与空间记忆从传统的纯像素生成任务中解耦，并以显式条件的形式注入模型，AI 确实有能力生成不仅视觉逼真，且在机制上更合理、可交互的动态游戏世界。

面向未来，研究团队计划将 MaaG 框架进一步拓展至更复杂的 2D 和 3D 场景，并探索更具鲁棒性的空间一致性机制。可以预见，依托于这一思路，AI 驱动的高一致性、强可玩性的自动化游戏生成体系正加速走向现实，为构建复杂、动态的虚拟世界模型奠定了坚实基础。

参考文献：

[1] World and Human Action Models towards gameplay ideation, Anssi Kanervisto et al.

来源：微软亚洲研究院一点号

标签：模型游戏时空 vid maag

本文地址：https://news.43u.com.cn/a/1188564.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!