-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源 4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域 训练 模型 开源 方法 srpo 2025-04-25 11:13 3