DeepSeek核心贡献:将SFT和RL统一的数学公式
祝贺DeepSeek开发出o1级推理模型!他们的研究论文证明,他们独立发现了一些我们在实现o1过程中所提出的核心思想。然而,我认为外界的反应有些被夸大,特别是在成本方面的叙述。我们将继续提升模型以更低的成本提供服务的能力。
rl 数学公式 deepseek核心 2025-01-29 21:18 3
祝贺DeepSeek开发出o1级推理模型!他们的研究论文证明,他们独立发现了一些我们在实现o1过程中所提出的核心思想。然而,我认为外界的反应有些被夸大,特别是在成本方面的叙述。我们将继续提升模型以更低的成本提供服务的能力。
rl 数学公式 deepseek核心 2025-01-29 21:18 3