将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架 北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。 李戈 代码生成 代码生成优化 2024-11-27 23:13 4