sft资讯_360影视

无需SFT也不用RL，样本级推理优化神器SLOT来了

近期，当很多人还在纠结用什么 label 和 reward 训练大模型的时候，以及纠结用什么样的基准模型进行公平比较的时候，西湖大学 MAPLE 实验室另辟蹊径：既然 LLM 在复杂指令上表现不佳，需要引入单独的 SFT 或者 RL 过程，那为什么不让模型在推

推理 delta rl slot sft 2025-06-09 22:00 8

近期，当很多人还在纠结用什么 label 和 reward 训练大模型的时候，以及纠结用什么样的基准模型进行公平比较的时候，西湖大学 MAPLE 实验室另辟蹊径：既然 LLM 在复杂指令上表现不佳，需要引入单独的 SFT 或者 RL 过程，那为什么不让模型在推

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人

模态研究 rl grpo sft 2025-06-02 02:57 7

近期的推理大模型（LRMs）通过强化学习（RL）展现出强大的推理能力，但这些改进主要体现在短上下文推理任务中。相比之下，如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入，仍然是一个尚未解决的关键挑战。

文件传输是企业跨部门协作、客户服务、供应链管理等场景的核心需求。随着数字化转型加速，数据成为企业关键资产，如金融、医疗、制造、半导体、能源等行业，均存在大量文件传输需求。因此一款安全高效便捷的企业文件传输软件，对企业而言，可以直接提升业务效率与竞争力。下面简单

建筑工程行业：设计部门完成建筑模型（含CAD图纸、3D渲染文件，单文件可达50GB+）后，需传输给施工部门进行工艺拆解，以及给预算部门核算材料成本。

在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在 50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。