redi

从失败中学习：强化蒸馏法让大语言模型更擅长推理

在人工智能研究的最前沿，一项创新研究正在改变我们训练大语言模型（LLM）推理能力的方式。来自国立新加坡大学和上海英飞睿（INFLY TECH）的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益：利用教师数据的强化蒸馏提升LL