基于鸟瞰视角的城市布局生成器及实例化神经场的应用

360影视 2025-01-31 06:00 2

摘要:近年来,三维场景生成受到了越来越多的关注,并取得了显著进展。然而,由于城市环境中存在结构复杂、视觉多样化的建筑物和车辆等物体,以及人类对城市环境中的扭曲高度敏感,因此生成四维城市比生成三维场景更具挑战性。为了解决这些问题,本文提出了CityDreamer4D,

近年来,三维场景生成受到了越来越多的关注,并取得了显著进展。然而,由于城市环境中存在结构复杂、视觉多样化的建筑物和车辆等物体,以及人类对城市环境中的扭曲高度敏感,因此生成四维城市比生成三维场景更具挑战性。为了解决这些问题,本文提出了CityDreamer4D,这是一种专门用于生成无界四维城市的组合生成模型。该模型的主要思想是将动态对象(如车辆)与静态场景(如建筑和道路)分离,并且所有物体都由不同的神经场组成,包括背景事物、建筑和车辆。为了产生动态交通场景和静态城市布局,我们提出了Traffic SCEnario Generator和Unbounded Layout Generator,并使用高紧凑性的BEV表示进行对象生成。此外,我们提供了适用于城市生成的全面数据集,包括OSM、GoogleEarth和CityTopia。利用其组合设计,CityDreamer4D支持多种下游应用,例如实例编辑、城市风格化和城市模拟,并在生成逼真的四维城市方面实现了最先进的性能。

该论文提出了一种名为CityDreamer4D的城市生成系统,用于生成未受限制的三维城市模型。该系统将城市生成分为静态场景生成和动态对象生成两个部分。对于静态场景生成,使用Unbounded Layout Generator创建任意大小的城市布局;然后使用City Background Generator生成背景图像及其对应的掩码;接下来使用Building Instance Generator生成建筑物实例的图像及其相应的掩码;最后使用Compositor将渲染好的背景、建筑物实例和车辆实例合并成一张完整的图像。

对于动态对象生成,首先使用Traffic Generator创建交通场景;然后使用Vehicle Instance Generator根据交通场景生成车辆实例的图像及其相应的掩码。

在静态场景生成中,该系统采用了MaskGIT[82]来支持图像填充和外推,并利用VQVAE[83]对语义地图和高度场进行编码,从而实现生成任意大小的城市布局。此外,在高度场的生成过程中,还加入了Smoothness Loss来增强边缘处的高度场清晰度。

在动态对象生成中,该系统通过生成高保真地图来保证动态对象的现实性和连续性,并利用Waymo Motion数据集中的实体定义来生成道路边缘、车道线、停车标志和交通信号灯等元素。

该系统解决了未受限制的三维城市模型生成问题,可以生成具有真实感和连贯性的城市模型,为虚拟现实和游戏等领域提供了重要的工具和支持。同时,该系统的高度场生成算法还可以应用于其他需要高度场的应用领域,如地形建模等。

本文主要介绍了城市生成器CityDreamer4D的实验结果,并与几个相关方法进行了比较。具体来说,作者在GoogleEarth和CityTopia两个数据集上进行了实验,并使用了FID、KID、VBench、DE、CE等指标来评估生成效果。同时,作者还进行了用户调查,以进一步验证CityDreamer4D的效果。

首先,作者将CityDreamer4D与其他四个方法进行了比较,包括SGAM、PersistentNature、SceneDreamer和InfiniCity。通过对比发现,CityDreamer4D在各项指标上都表现得更好,特别是在运动平滑度、动态程度和美学质量方面。此外,CityDreamer4D还能更准确地还原3D几何形状和保持多视图一致性。

其次,作者对CityDreamer4D的不同组件进行了Ablation Study(消融实验),包括Unbounded Layout Generator、Building Instance Generator和Vehicle Instance Generator。结果显示,这些组件的设计对于生成高质量的城市非常重要。例如,去除Building Instance Generator会导致生成的质量大幅下降,而使用不同的场景参数化设计也会导致不同的结果。

最后,作者探讨了CityDreamer4D的应用领域,包括城市模拟器、局部编辑和城市风格化。这些应用展示了CityDreamer4D的强大功能和潜力。

总之,本文通过实验和分析,证明了CityDreamer4D是一种高效、可靠的城市生成器,具有广泛的应用前景。

本文提出了一种名为CityDreamer4D的模型,用于生成大型城市场景。该模型具有以下优点:

城市结构分解:作者将城市分为静态建筑和动态交通两部分,并使用不同的神经网络分别处理这两部分。多视角一致性:模型可以同时生成多个视角下的城市场景,且这些场景在光照条件相同的情况下保持一致。灵活性:模型可以根据需要添加或删除建筑物和车辆,从而实现更灵活的城市生成。

本文的主要创新点在于提出了CityDreamer4D模型,该模型能够根据输入的关键字自动生成符合要求的城市场景。此外,作者还采用了背景物品和实例物品分离的方法来提高生成效果。

随着深度学习技术的发展,基于图像生成的模型已经取得了很多进展。未来,我们可以期待更多类似的模型被提出,以解决更多的实际问题。例如,在城市规划中,这种模型可以帮助规划师更好地预测未来的城市发展情况;在游戏开发中,这种模型可以为游戏提供更加真实的城市环境等。

来源:宁教授网络空间元宇宙

相关推荐