层次化

层次化多步奖励模型:增强大模型推理能力的新探索

随着大模型在各类生成任务中的表现不断提升,如何进一步改进它们在多步推理任务中的能力,特别是数学和逻辑推理方面,已成为大家的关注点。本文通过引入层次化评估和高效的数据增强策略,有效提升了模型在多步推理任务中的表现,尤其在模型需要识别并纠正前序错误的场景中表现突出

模型 推理 prm hnc 层次化 2025-04-20 07:08  6