摘要:实验结果表明,RRM 在不同领域的奖励建模基准上都取得了很好的性能。值得注意的是,RRM 可以自适应地利用测试时计算来进一步提高奖励的准确性。论文链接:https://arxiv.org/abs/2505.1467411. 微软推出「语言模型链」CoLM来自微
原创 学术头条 学术头条
实验结果表明,RRM 在不同领域的奖励建模基准上都取得了很好的性能。值得注意的是,RRM 可以自适应地利用测试时计算来进一步提高奖励的准确性。论文链接:https://arxiv.org/abs/2505.1467411. 微软推出「语言模型链」CoLM来自微软的研究团队及其合作者提出了一种新的学习范式——“模型链”(Chain-of-Model,CoM),它将因果关系以链的形式纳入每一层的隐藏状态,从而在模型训练中提高扩展效率、在部署中增加推理灵活性。他们还提出了“表征链”(Chain-of-Representation,CoR)的概念,将每一层的隐藏状态表述为隐藏维度上多个子表征(即链)的组合。在每一层中,来自输出表征的每个链只能查看输入表征中其前面的所有链。因此,建立在 CoM 框架上的模型可以通过增加基于先前模型(即链)的链来逐步扩大模型规模,并通过使用不同的链数提供多个不同规模的子模型以进行弹性推理。基于这一原理,他们设计了语言模型链(CoLM),将 CoM 的理念融入 Transformer 架构的每一层。在 CoLM 的基础上,他们进一步推出了 CoLM-Air,引入了 KV 共享机制,在第一条链中计算所有键和值,然后在所有链中共享。这一设计展示了更多的可扩展性,如实现无缝 LM 切换、预填充加速等。实验结果表明,CoLM 系列可以实现与标准 Transformer 相当的性能,同时还具有更大的灵活性,如渐进式扩展以提高训练效率,并为弹性推理提供多种不同的模型大小。论文链接:https://arxiv.org/abs/2505.11820整理:学术君如需转载或投稿,请直接在公众号内留言原标题:《清华李涓子团队:让推理模型学会何时思考;上海AI Lab提出“视觉代理强化微调”|大模型论文》 来源:完美教育
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!