神器slot

无需SFT也不用RL，样本级推理优化神器SLOT来了，准确率轻松+10%

近期，当很多人还在纠结用什么 label 和 reward 训练大模型的时候，以及纠结用什么样的基准模型进行公平比较的时候，西湖大学 MAPLE 实验室另辟蹊径：既然 LLM 在复杂指令上表现不佳，需要引入单独的 SFT 或者 RL 过程，那为什么不让模型在推