基于鸟瞰视角的城市布局生成器及实例化神经场的应用

摘要：近年来，三维场景生成受到了越来越多的关注，并取得了显著进展。然而，由于城市环境中存在结构复杂、视觉多样化的建筑物和车辆等物体，以及人类对城市环境中的扭曲高度敏感，因此生成四维城市比生成三维场景更具挑战性。为了解决这些问题，本文提出了CityDreamer4D，

近年来，三维场景生成受到了越来越多的关注，并取得了显著进展。然而，由于城市环境中存在结构复杂、视觉多样化的建筑物和车辆等物体，以及人类对城市环境中的扭曲高度敏感，因此生成四维城市比生成三维场景更具挑战性。为了解决这些问题，本文提出了CityDreamer4D，这是一种专门用于生成无界四维城市的组合生成模型。该模型的主要思想是将动态对象（如车辆）与静态场景（如建筑和道路）分离，并且所有物体都由不同的神经场组成，包括背景事物、建筑和车辆。为了产生动态交通场景和静态城市布局，我们提出了Traffic SCEnario Generator和Unbounded Layout Generator，并使用高紧凑性的BEV表示进行对象生成。此外，我们提供了适用于城市生成的全面数据集，包括OSM、GoogleEarth和CityTopia。利用其组合设计，CityDreamer4D支持多种下游应用，例如实例编辑、城市风格化和城市模拟，并在生成逼真的四维城市方面实现了最先进的性能。

该论文提出了一种名为CityDreamer4D的城市生成系统，用于生成未受限制的三维城市模型。该系统将城市生成分为静态场景生成和动态对象生成两个部分。对于静态场景生成，使用Unbounded Layout Generator创建任意大小的城市布局；然后使用City Background Generator生成背景图像及其对应的掩码；接下来使用Building Instance Generator生成建筑物实例的图像及其相应的掩码；最后使用Compositor将渲染好的背景、建筑物实例和车辆实例合并成一张完整的图像。

对于动态对象生成，首先使用Traffic Generator创建交通场景；然后使用Vehicle Instance Generator根据交通场景生成车辆实例的图像及其相应的掩码。

在静态场景生成中，该系统采用了MaskGIT[82]来支持图像填充和外推，并利用VQVAE[83]对语义地图和高度场进行编码，从而实现生成任意大小的城市布局。此外，在高度场的生成过程中，还加入了Smoothness Loss来增强边缘处的高度场清晰度。

在动态对象生成中，该系统通过生成高保真地图来保证动态对象的现实性和连续性，并利用Waymo Motion数据集中的实体定义来生成道路边缘、车道线、停车标志和交通信号灯等元素。

该系统解决了未受限制的三维城市模型生成问题，可以生成具有真实感和连贯性的城市模型，为虚拟现实和游戏等领域提供了重要的工具和支持。同时，该系统的高度场生成算法还可以应用于其他需要高度场的应用领域，如地形建模等。

本文主要介绍了城市生成器CityDreamer4D的实验结果，并与几个相关方法进行了比较。具体来说，作者在GoogleEarth和CityTopia两个数据集上进行了实验，并使用了FID、KID、VBench、DE、CE等指标来评估生成效果。同时，作者还进行了用户调查，以进一步验证CityDreamer4D的效果。

首先，作者将CityDreamer4D与其他四个方法进行了比较，包括SGAM、PersistentNature、SceneDreamer和InfiniCity。通过对比发现，CityDreamer4D在各项指标上都表现得更好，特别是在运动平滑度、动态程度和美学质量方面。此外，CityDreamer4D还能更准确地还原3D几何形状和保持多视图一致性。

其次，作者对CityDreamer4D的不同组件进行了Ablation Study（消融实验），包括Unbounded Layout Generator、Building Instance Generator和Vehicle Instance Generator。结果显示，这些组件的设计对于生成高质量的城市非常重要。例如，去除Building Instance Generator会导致生成的质量大幅下降，而使用不同的场景参数化设计也会导致不同的结果。

最后，作者探讨了CityDreamer4D的应用领域，包括城市模拟器、局部编辑和城市风格化。这些应用展示了CityDreamer4D的强大功能和潜力。

总之，本文通过实验和分析，证明了CityDreamer4D是一种高效、可靠的城市生成器，具有广泛的应用前景。