推理模型逆袭

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强

对于不可验证问题，字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明，过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。