gsm

多智能体微调,通过多样化推理链实现自我完善的新路径

大模型的性能一直受限于其训练数据的质量和覆盖范围,尽管使用现有强大模型生成合成数据能够一定程度上缓解这一问题,但其效果和成本却存在局限性。随着模型不断被重复训练,性能提升逐渐趋于平缓,甚至出现瓶颈现象。这种现象限制了LLMs在更广泛领域内的自主改进能力。

推理 路径 gsm 2025-01-15 19:49  3