dreamerv3

DeepMind在《自然》发布DreamerV3论文

传统RL算法需针对不同任务调整超参数（如PPO），而DreamerV3通过固定配置在150+任务中超越专用算法，解决了RL的“脆性”问题。这种“一次训练，多任务适用”的特性大幅降低了工程成本。