黑客万字

翁荔离职OpenAI后第一个大动作！奖励黑客万字综述！

瓮荔发了一篇万字博客，分析了强化学习中奖励黑客（Reward Hacking）的问题，即智能体（Agent）利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。