奖励推理模型

微软与清华联手：奖励推理模型RRMs问世

科技媒体 marktechpost 今天（5 月 27 日）发布博文，报道称微软研究院联合清华大学、北京大学组建团队，推出奖励推理模型（Reward Reasoning Models，RRMs），通过显式推理过程动态分配计算资源，提升复杂任务评估效果。