无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10% 近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推 推理 rl slot sft 神器slot 2025-06-09 19:42 4