首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源 在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。 模型 模态 脚本 cot cot奖励 2025-05-13 18:04 2