摘要:整合提示:用户最好将所有要求整合到一个提示中,而不是在多个回合中澄清。及时止损:如果对话偏离了轨道,以综合摘要开始新的会话会带来更好的结果。
01 使用指南
整合提示:用户最好将所有要求整合到一个提示中,而不是在多个回合中澄清。及时止损:如果对话偏离了轨道,以综合摘要开始新的会话会带来更好的结果。02 主要原因
在对话初期就做出过早且往往不正确的假设。在获得所有必要信息之前尝试完整的解决方案,导致答案过于复杂或偏离目标。过度依赖他们之前的(可能不正确的)答案,随着对话的进展,错误不断累积。产生过于冗长的输出,这会进一步混淆上下文并使后续回合变得混乱。03 重要论据
主要观点来自以下这篇论文。
本文研究了 LLM 在现实的多轮对话环境中的表现,在这种环境中,用户指令通常未明确指定,并且需要经过多次对话才能明确。
多轮指令后性能显著下降
所有经过测试的 LLM 在多轮、未充分指定的对话中的表现都明显比单轮、完全指定的指令要差。
即使对于 SoTA 模型来说,六项任务的平均性能下降也高达 39%。例如,在单轮设置中准确率 > 90% 的模型,在多轮设置中准确率通常会下降到约 60%。
不可靠是表现变差的主要原因
退化是由于不可靠,而不仅仅是能力。
性能损失分解为最佳情况能力的适度下降(能力,-15 %)和不可靠性的急剧增加(+112 %) 。
在多轮设置中,最佳响应和最差响应之间的差距会大大扩大,这意味着 LLM 变得更加不一致和可预测。
ENDING
简单来说,就是LLM会在多轮对话中逐渐迷失方向!这也是开发人员在进行构建时最常见的问题。
来源:识因智能EFFYIC