q值

IJCAI2024: 基于集成网络的离线到在线强化学习

强化学习(Reinforcement Learning, RL)有两种基础的训练范式:在线强化学习(Online RL)和离线强化学习(Offline RL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;

pex q值 ijcai2024 2024-12-06 20:06  3