dapo

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

在人工智能技术快速迭代发展的背景下，大语言模型（LLMs）已成为自然语言处理与生成领域的核心技术。然而，将这些模型与人类偏好精确对齐并增强其复杂推理能力的挑战，促使研究者开发了一系列复杂的强化学习（RL）技术。DAPO（解耦裁剪和动态采样策略优化，Decoup

近日，清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。这是一个可实现大规模 LLM