AI无限生成《我的世界》，玩家动动键盘鼠标自主控制！

摘要：它由昆仑万维带来，可以让用户通过简单的键鼠指令，自由探索、创作细节丰富且符合现实世界物理规律的虚拟内容；以极低操作门槛，释放物理真实感与创作自由度的双重潜力。

用AI无限扩展《我的世界》，动动鼠标、键盘即可搞定！

一直前进、砍掉树木，后面别有洞天的世界，都是由用户与环境交互、AI实时生成的。

也就是说，在砍掉树木之前，树后面的内容还是不存在的。

用鼠标切换视角、环顾环境，丝滑生成连贯画面内容。

哪怕是跳跃，画面也非常稳定，且符合自然世界物理规律。

Minecraft中森林、沙滩、沙漠、冰川、河流、平原等场景都可搞定。

支持基础运动（前后左右）、复合运动、视角移动、跳跃、攻击等细节操作。

而且不局限于《我的世界》，类Unreal Engine场景泛化也不在话下。

生成的雨天后的街道，已经非常逼真。

无限逼近画面细节也不崩：

以上，就是交互式世界模型最新的重大更新！

Matrix-Game，面向游戏世界建模，专为开放世界生成高质量内容而来。

它由昆仑万维带来，可以让用户通过简单的键鼠指令，自由探索、创作细节丰富且符合现实世界物理规律的虚拟内容；以极低操作门槛，释放物理真实感与创作自由度的双重潜力。

要知道，传统方法构建类似效果，往往需要手写代码、渲染视觉效果，耗时又耗力。

此前，谷歌推出了完全由AI驱动的实时游戏引擎GameNGEN一夜爆火，它能以每秒20帧模拟经典射击游戏DOOM，被网友直呼“比Sora还震撼”。

Matrix-Game与之类似，是交互式世界模型的更进一步探索。

具体如何实现？一起来看。

Matrix-Game主要发布了三方面内容：

Matrix-Game-MC数据集Matrix-Game主模型GameWorld Score评测体系

Matrix-Game-MC数据集是一个自主构建的大规模交互世界数据集。主要包含两类数据：大规模无标签的Minecraft游戏视频和带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据，具备精细动作标注。

这能让模型同时学习复杂环境动态和交互模式，完成建模。

其中，无标签预训练数据采用三阶段过滤机制：画质与美学过滤→非游戏内容剔除→动态与视角稳定性过滤。

从6000小时的MineDojo数据中过滤出近千小时高质量数据。

有标签数据采用2种混合策略，生成数千小时可控监督数据。

一方面基于探索代理（Exploration Agent），借助VPT agent在MineRL环境中自动探索，生成大规模、高质量的Minecraft视频数据，数据中包含精确的键盘与鼠标控制信号，支持可控性学习。

另一方面进行程序化模拟（Unreal Procedural Simulation），基于Unreal Engine手动构建结构清晰、标签精确的模拟交互场景，提供位置信息、动作标签（离散与连续）、以及环境反馈信号（如方块是否成功破坏），生成高精度、无噪声的可控标注数据，以此完成高保真动作-响应建模。

主模型核心框架基于扩散模型。包含图像到世界建模、自回归式视频生成、可控交互设计几个部分。

首先，图像到世界建模（Image-to-World Modeling）以单张图像作为生成交互式视频起点，融入用户动作输入（如键盘、鼠标），通过类似Flux与HunyuanVideo的多模态扩散模型直接生成虚拟游戏世界的视频内容。

过程中不依赖语言提示，仅基于视觉信号建模空间几何、物体运动及其物理交互。

然后通过自回归式视频生成（Autoregressive Diffusion Generation），持续生成高一致性长视频内容。

每次生成以前一视频片段的最后k=5帧作为运动上下文，逐段递进生成，确保时间上的连贯性。

为缓解时序漂移和误差累积，训练中以一定概率针对参考图像与运动上下文引入随机扰动、随机删除以及分类引导（CFG）策略。

训练中采用可控交互设计（Injecting Actions for Controllability），键盘动作以离散token表达，视角移动动作则以连续token表达。

采用GameFactory的控制模块，并融入多模态Diffusion Transformer架构，同时使用CFG技术提升对控制信号的鲁棒响应能力。

GameWorld Score测评体系

为了系统性评估和比较交互式世界生成模型的性能，Matrix-Game提出了一套统一评测框架。

该评测体系首次实现了感知质量+控制能力+物理合理性的全方位衡量。

核心评估维度有四方面：

视觉质量（Visual Quality）：评估每一帧图像的清晰度、结构一致性与真实感。依据人类视觉系统（HVS）标准衡量每一帧图像生成效果。时间一致性（Temporal Quality）：衡量模型生成视频的动态连贯性，包括运动连续性、节奏平滑性与时间稳定性。交互可控性（Action Controllability）：评估生成结果是否准确响应用户输入的控制信号，涵盖离散控制（如前进、跳跃）和连续控制（如视角转换）。物理规则理解（Physical Rule Understanding）：测试生成视频是否遵循物理常识与空间一致性。