清华李涓子团队:让推理模型学会何时思考;上海AI Lab提出“视觉代理强化微调”|大模型论文 实验结果表明,RRM 在不同领域的奖励建模基准上都取得了很好的性能。值得注意的是,RRM 可以自适应地利用测试时计算来进一步提高奖励的准确性。论文链接:https://arxiv.org/abs/2505.1467411. 微软推出「语言模型链」CoLM来自微 模型 论文 清华 lab 推理模型学会 2025-05-26 10:40 5