多轮对话不迷糊!权威论文教你如何调教大语言模型

360影视 动漫周边 2025-05-15 17:53 1

摘要:整合提示:用户最好将所有要求整合到一个提示中,而不是在多个回合中澄清。及时止损:如果对话偏离了轨道,以综合摘要开始新的会话会带来更好的结果。

01 使用指南

整合提示:用户最好将所有要求整合到一个提示中,而不是在多个回合中澄清。及时止损:如果对话偏离了轨道,以综合摘要开始新的会话会带来更好的结果。

02 主要原因

在对话初期就做出过早且往往不正确的假设。在获得所有必要信息之前尝试完整的解决方案,导致答案过于复杂或偏离目标。过度依赖他们之前的(可能不正确的)答案,随着对话的进展,错误不断累积。产生过于冗长的输出,这会进一步混淆上下文并使后续回合变得混乱。

03 重要论据

主要观点来自以下这篇论文。

本文研究了 LLM 在现实的多轮对话环境中的表现,在这种环境中,用户指令通常未明确指定,并且需要经过多次对话才能明确。

多轮指令后性能显著下降

所有经过测试的 LLM 在多轮、未充分指定的对话中的表现都明显比单轮、完全指定的指令要差。

即使对于 SoTA 模型来说,六项任务的平均性能下降也高达 39%。例如,在单轮设置中准确率 > 90% 的模型,在多轮设置中准确率通常会下降到约 60%。

不可靠是表现变差的主要原因

退化是由于不可靠,而不仅仅是能力。

性能损失分解为最佳情况能力的适度下降(能力,-15 %)和不可靠性的急剧增加(+112 %) 。

在多轮设置中,最佳响应和最差响应之间的差距会大大扩大,这意味着 LLM 变得更加不一致和可预测。

ENDING

简单来说,就是LLM会在多轮对话中逐渐迷失方向!这也是开发人员在进行构建时最常见的问题。

来源:识因智能EFFYIC

相关推荐