sft

无需SFT也不用RL,样本级推理优化神器SLOT来了

近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推

推理 delta rl slot sft 2025-06-09 22:00  4

SFT在帮倒忙?新研究:直接进行强化学习

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人

模态 研究 rl grpo sft 2025-06-02 02:57  5

信创环境下的高效传输:Ftrans SFT企业文件传输软件!

文件传输是企业跨部门协作、客户服务、供应链管理等场景的核心需求。随着数字化转型加速,数据成为企业关键资产,如金融、医疗、制造、半导体、能源等行业,均存在大量文件传输需求。因此一款安全高效便捷的企业文件传输软件,对企业而言,可以直接提升业务效率与竞争力。下面简单

文件传输 sft ftranssft 文件传输软件 ftra 2025-05-20 08:59  4