监督rl

无监督RL的粗略分析

近期，无监督RL在社区也掀起了一阵热潮，主打一个多快好省（不能训太长step）有效果，且不论文章里面的evaluation是否存在问题，本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。