推理模型学会

清华李涓子团队：让推理模型学会何时思考；上海AI Lab提出“视觉代理强化微调”｜大模型论文

实验结果表明，RRM 在不同领域的奖励建模基准上都取得了很好的性能。值得注意的是，RRM 可以自适应地利用测试时计算来进一步提高奖励的准确性。论文链接：https://arxiv.org/abs/2505.1467411. 微软推出「语言模型链」CoLM来自微