srpo

SRPO：强化学习让多模态大语言模型推理能力更上一层楼

在2025年6月发布于arXiv预印本平台的一项最新研究中，由俄亥俄州立大学的万忠伟(Zhongwei Wan)领衔，联合来自凯斯西储大学、帝国理工学院、杜克大学等多家知名院校的研究团队开发了一种名为SRPO的创新技术。这项研究的全称是"SRPO: Enhan

4月23日，快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域