小型开源模型借GRPO算法,在《时空谜题》中超越OpenAI等顶尖推理模型
近日,海外知名大模型产品平台OpenPipe公布了一项令人瞩目的研究成果,该研究成功地在重度推理游戏《时空谜题》中,利用一种名为GRPO的强化学习算法,使小型开源模型的表现超越了多个业界领先的推理模型,包括DeepSeek R1、OpenAI的o1和o3-mi
近日,海外知名大模型产品平台OpenPipe公布了一项令人瞩目的研究成果,该研究成功地在重度推理游戏《时空谜题》中,利用一种名为GRPO的强化学习算法,使小型开源模型的表现超越了多个业界领先的推理模型,包括DeepSeek R1、OpenAI的o1和o3-mi
小米大模型团队近日宣布,在音频推理技术方面取得了显著进步。该团队受DeepSeek-R1项目的启发,成功将强化学习算法应用于多模态音频理解任务,这一创新实践仅耗时一周,便在国际权威的MMAU音频理解评测中取得了64.5%的准确率,成功登顶榜首,并且已经同步开源