SRPO:强化学习让多模态大语言模型推理能力更上一层楼
在2025年6月发布于arXiv预印本平台的一项最新研究中,由俄亥俄州立大学的万忠伟(Zhongwei Wan)领衔,联合来自凯斯西储大学、帝国理工学院、杜克大学等多家知名院校的研究团队开发了一种名为SRPO的创新技术。这项研究的全称是"SRPO: Enhan
在2025年6月发布于arXiv预印本平台的一项最新研究中,由俄亥俄州立大学的万忠伟(Zhongwei Wan)领衔,联合来自凯斯西储大学、帝国理工学院、杜克大学等多家知名院校的研究团队开发了一种名为SRPO的创新技术。这项研究的全称是"SRPO: Enhan
4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域