altpo

交替偏好优化(AltPO)

交替偏好优化(AltPO)是一种创新的方法,旨在解决大型语言模型中的信息遗忘问题。这种方法的核心在于结合负反馈和正反馈,通过引导模型生成合理的替代信息来实现信息的有效“遗忘”。

als ao altpo 2024-12-06 13:14  1