ucb团队

UCB团队提出无需外部奖励的强化学习方法，只靠“自信”就能学习

最近几个月来，可验证奖励强化学习（RLVR，Reinforcement Learning with Verifiable Rewards）愈发受到学界关注。相比起传统的基于人类反馈的强化学习（RLHF，Reinforcement Learning from H