强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍 虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 机器人 残差 rl 监督rl swish 2025-03-23 17:21 4