grpo

强化学习如何帮助大语言模型实现自我进化

大型语言模型(LLMs)已经在代码生成领域取得了显著进步,但生成的代码虽然功能正确,却往往存在效率低下的问题。这一研究缺口正是由南洋理工大学、新加坡国立大学、香港大学、西安交通大学和字节跳动的联合研究团队着手解决的。在最近发表的论文《Afterburner:

模型 语言 dpo venus grpo 2025-06-04 16:11  2

SFT在帮倒忙?新研究:直接进行强化学习

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人

模态 研究 rl grpo sft 2025-06-02 02:57  4

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别

随着大模型(LLMs)的快速发展和可集成工具的爆炸增长,AI 智能助手在日常生活中可提供的便利越来越多,不仅包括传统任务型对话中订机票、查询天气等助理能力,还增加了无以计数的 AI 能力,如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意

范式 数据集 跨语言 泛化 grpo 2025-05-17 02:08  6

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化

在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了 「只听一次 」就能完美复刻目标音色的零样本克隆能力。这一突破性进展的背后,是大规模语音数据的积累和大模型技

模型 wer 语音合成 grpo grpo优化 2025-04-19 21:01  5

F5R-TTS首次实现非自回归模型的GRPO优化 零样本克隆性能显著提升

在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。这一突破性进展的背后,是大规模语音数据的积累和大模型技术的

模型 克隆 grpo 样本克隆 grpo优化 2025-04-19 14:32  7