摘要:今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(GRPO)”的方法,自己学会了分配更多的思考时间,而不需要人来给反馈。
极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。
今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(GRPO)”的方法,自己学会了分配更多的思考时间,而不需要人来给反馈。
我们优化了整个 GRPO 过程,让它的显存(VRAM)占用比 Hugging Face + FA2 少 80%。
这意味着你现在可以在自己的电脑上重现DeepSeek R1的那个“啊哈!”的瞬间。
用Qwen2.5(1.5B)这个模型,只需要7GB的显存(VRAM)就能做到。
这个改进是通过GRPO技术实现的,我们把整个流程优化了,让显存使用减少了80%。
你可以在Colab笔记本上试试Llama 3.1 8B这个模型!
之前,Tiny-Zero例子已经证明了,你可以用Qwen2.5(1.5B)来实现自己的“顿悟”时刻——但以前这至少需要4块A100显卡(总共160GB显存)。现在,有了Unsloth,你只需要一块7GB显存的显卡就能做到同样的事情。以前GRPO只能和FFT一起用,但现在我们让它也能和QLoRA、LoRA这些技术兼容了。
如果你有15GB的显存,你可以把Phi-4(14B)、Llama 3.1(8B)、Mistral(12B)或者任何参数不超过15B的模型转换成推理模型。
要点:
最低要求:只要 7GB VRAM 就能在本地训练你自己的推理模型。有 15GB VRAM?那你可以把最高 15B 参数的模型(比如 Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)或 Qwen2.5(7B))变成推理模型。以前,GRPO 只能用来“完全微调”模型,但现在它也支持 QLoRA 和 LoRA 了!注意:这不是微调 DeepSeek 的 R1 蒸馏模型,也不是用 Unsloth 现有的 R1 蒸馏数据做调整。而是用 GRPO 把普通模型训练成真正的“推理”模型。
什么是GRPO:
GRPO(组相对策略优化,Group Relative Policy Optimization)是一种让 AI 更聪明的训练方法,它可以让 AI 自己学会更好地思考,而不需要人手把手教。
举个例子:假设你在学数学,有一道难题,你可以选择 花更多时间思考,或者 随便写个答案。如果你认真思考,最后解出来了,你会发现 “哦!原来这样解才对!” 这就是一个顿悟时刻。
以前训练 AI 时,通常是人告诉它“这样做对,那样做错”,就像老师直接给答案。而 GRPO 让 AI 自己分配思考时间,当它发现“认真想更有用”时,就会自动学会多花时间思考,而不是随便猜答案。这样 AI 变得更聪明,推理能力更强!
GRPO 可以让 AI 自己分配思考时间,也可人为插入Wait在之间,让模型多思考一会儿,见 李飞飞的s1论文。
专业解释:
GRPO 是一种强化学习(RL)算法,它不用“价值函数”也能优化 AI 的回答方式,这跟传统的 PPO(近端策略优化)不一样,PPO 需要依赖价值函数来判断好坏。
在我们的实验中,我们用 GRPO 来训练 AI,让它自己学会检查和改进自己的答案,最终实现一个小小的“顿悟时刻”。
GRPO 的工作原理
AI 先生成多个不同的回答。每个回答都会被打分,评分标准可以是正确性,或者某些设定的奖励规则(但不会用 LLM 评分)。计算所有回答的平均分。对比每个回答和平均分的差距。AI 会被训练成更倾向于得分高的回答。举个例子
假设我们要训练 AI 解数学题:
以前,我们需要收集大量数据,告诉 AI “计算过程要怎么写”,但 GRPO(DeepSeek 用的算法)和其他强化学习方法,可以让 AI 自己学会推理过程,并自动形成思考步骤。
不过,我们需要设定合理的奖励规则或验证机制,比如:
答案正确,加 1 分。有单词拼写错误,扣 0.1 分。步骤清晰,加 0.5 分。
就这样,我们可以给 AI 设定很多不同的评分标准,让它自己学会怎么优化答案!
GRPO 可以用来做什么?
✅ 你想训练一个带“奖励系统”的定制模型(比如法律、医学领域)?GRPO 能帮你搞定!✅ 你有输入和输出数据(比如问题和答案),但中间的思考过程不清楚?GRPO 可以自动帮你生成推理过程!✅ 还有更多可能性等你来探索!Unsloth 中的 GRPO
如果你在本地使用 GRPO 和 Unsloth,请先运行命令:
pip install diffusers
因为它是必须安装的依赖库。
训练注意事项
训练至少 300 步 后,奖励分数才会真正开始上升。请使用 最新版本的 vLLM,保证兼容性。Colab 示例 只训练了 1 个小时,所以效果比标准训练差。要得到更好的结果,建议训练 至少 12 个小时。不过,这不是硬性要求,你可以随时停止训练。文章链接:https://www.jdon.com/77450.html
来源:解道Jdon