cot训练

揭示显式CoT训练机制：思维链如何增强推理泛化能力

例如，OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调（Reinforcement Fine-Tuning，RFT），进一步推动了 AI 定制化的发展[1]。RFT/ReFT[2] 的一个关键组成部分是使