infalign

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

在根据某个奖励微调生成式语言模型时，使用 KL 正则化的强化学习（KL-RL）来对齐生成式语言模型是一种常用框架。而 KL-RL 通常需要训练一个奖励模型，然后使用一个强化学习求解器。其它方法还包括直接偏好优化、奖励模型蒸馏、best-of-N 蒸馏的不同

模型推理 infalign 2025-01-30 21:23 16