从失败中学习:强化蒸馏法让大语言模型更擅长推理 在人工智能研究的最前沿,一项创新研究正在改变我们训练大语言模型(LLM)推理能力的方式。来自国立新加坡大学和上海英飞睿(INFLY TECH)的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益:利用教师数据的强化蒸馏提升LL 模型 推理 语言 蒸馏法 redi 2025-06-04 16:34 5