清华dsac

50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析

清华大学团队在强化学习领域取得重大突破,开发出DSAC及DSAC-T系列算法,有效解决强化学习中的过估计问题,提升学习效果稳定性;团队还提出DACER算法,将扩散模型与在线强化学习结合,进一步刷新性能记录;RAD优化器为强化学习训练稳定性提供保障,相关成果将集

算法 dsac 清华dsac 2025-01-17 14:55  3