微软与清华联手:奖励推理模型RRMs问世 科技媒体 marktechpost 今天(5 月 27 日)发布博文,报道称微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。 微软 推理模型 奖励推理模型 rrms 推理模型rrms 2025-05-27 14:17 5