监督学习也能反思?清华英伟达提出隐式负向策略爆炸提升数学能力 清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。 数学 英伟达 策略 清华 清华英伟达 2025-06-22 14:03 3