摘要:Justin Chih-Yao Chen1, Zifeng Wang2, Hamid Palangi2, Rujun Han2, Sayna Ebrahimi3, Long Le2, Vincent Perot3, Swaroop Mishra3, Mohit
Justin Chih-Yao Chen1, Zifeng Wang2, Hamid Palangi2, Rujun Han2, Sayna Ebrahimi3, Long Le2, Vincent Perot3, Swaroop Mishra3, Mohit Bansal1, Chen-Yu Lee2, Tomas Pfister2 123
UNC Chapel Hill, Google Cloud AI Research, Google DeepMind
摘要:反向思考(Reverse Thinking)在人类推理中起着至关重要的作用。人类不仅可以从问题正向推导出解决方案,还可以反其道而行之,即从解决方案开始,逆向推理至问题。这通常会提高整体推理性能,因为它使得他们能够在正向和逆向思考之间进行一致性检查。为了使大型语言模型(LLMs)能够进行反向思考,我们提出了逆向增强思考(Reverse-Enhanced Thinking:REVTHINK),这是一个由数据增强和学习目标组成的框架。在REVTHINK中,我们通过从教师模型收集结构化的正向-逆向推理来增强数据集,其中包括:(1)原始问题,(2)正向推理,(3)逆向问题和(4)逆向推理。然后,我们采用三个目标来以多任务学习的方式训练一个较小的学生模型:(a)从问题生成正向推理,(b)从问题生成逆向问题,(c)从逆向问题生成逆向推理。在涵盖常识、数学和逻辑推理的12个数据集上的实验显示,与学生模型的零-shot表现相比,平均改善了13.53%,比最强的知识蒸馏基线改善了6.84%。此外,我们的方法表现出样本效率-仅使用训练数据中10%的正确正向推理,就优于使用10倍更多正向推理训练的标准微调方法。REVTHINK还展现了对分布外保留数据集的强大泛化能力。
1 介绍"倒置,总是倒置。“Invert, always, invert.”" — 卡尔·雅各比。
反向思考在人类推理过程中起着至关重要的作用(Branchini等,2021年)。
图1:符号知识蒸馏(SKD)与我们的方法的比较。(1)教师模型为给定的问题生成多个推理链,(2)SKD在正确的推理链上进行监督微调,(3)我们的方法融合了双向推理,通过我们的多任务目标从问题到答案和答案到问题进行学习。
数学测试举例。提高考试成绩的有效方法是进行正向和逆向推理。在正向推理中,我们从问题开始,逐步进行思考直至得出答案。而逆向思考则是从预测的答案开始,逆向思考至原始问题。这种双向方法使我们能够验证解决方案的准确性,并识别潜在错误。考虑一个简单的数学问题:Emma有两个苹果,Jack有三个。他们一共有多少个?正向推理得出计算结果 2+3 = 5。使用逆向推理,我们从结论他们有五个苹果开始。如果Emma有两个,我们可以问:Jack有多少?
结果3,与原问题吻合,证实解决方案正确。然而,如果正向推理错误地预测答案为六,逆向推理会揭示一个冲突:他们有六个苹果,Emma有两个,所以Jack必须有四个,这与原问题相矛盾。这种差异表明需要重新评估和改进解决方案。
先前的研究表明,大型语言模型(LLMs)在数学中受益于正向-反向推理(Jiang等,2024年;Weng等,2022年)。这在很大程度上是由于两个因素:(1)数学的高度结构化特性,有助于正向和反向推理之间的清晰逆向关系,以及(2)通过简单替换变量(如名称或数字)即可创建新的数学问题的能力。这些因素引出了第一个研究问题:反向思考是否能够应用于更广泛、结构较少的领域?此外,这些方法在测试时起验证作用:给定解决方案,我们可以要求LLM对反向思考,查看正向推理是否正确。虽然它们相对其他测试时间方法(如自洽性,Wang等,2022年)展示出适度的改进,但这引发了第二个问题:在测试时,是否可以训练模型内在地进行反向思考,从而改善其正向推理能力?
为了回答这些研究问题,我们提出了REVTHINK框架,该框架由数据增强和新颖的学习目标组成,旨在培养语言模型中的逆向思考。我们首先通过使用更大、性能更强的教师模型来增强数据集。推理基准数据通常包含问题和答案。我们通过教师模型的少量提示生成(1) 正向推理,(2) 反向问题,以及(3) 反向推理,从而扩展了这一情况。正向和反向推理都是 "思考链" (Wei et al., 2022)。我们仅保留那些正向推理准确(经过验证与基本事实核实)且反向推理与原始问题一致(通过提示教师模型进行验证)的数据点。在增强数据集之后,我们为训练较小的学生模型提出了三个关键目标。具体来说,学生需要学会:(1) 从问题生成正确的正向推理,(2) 从原始问题生成一个反向问题,以及(3) 从反向问题生成反向推理。这些目标的理由有三。首先,从问题中生成正确的推理是知识蒸馏的标准方法(Li et al., 2023a; West et al., 2022)。其次,生成一个反问题鼓励学生模型“思考”如何颠倒一个问题并确定要问的正确问题。最后,解决反问题加强了学生的逆向推理能力。在测试阶段,学生模型被提示提出问题,它仅生成正向推理,类似于标准的零样本推理。实质上,我们的流程在训练期间内部化了逆向推理的能力,同时保持着与零样本方法一样高效的测试阶段计算。正如图1所示,传统的监督微调侧重于单向推理,从问题到答案。相比之下,REVTHINK通过我们的数据增强方法和提出的目标引入了双向思考,学会了在两个方向上推理,从而产生了更大的改进。
我们通过在12个不同的数据集上评估REVTHINK,涵盖常识推理、数学推理、逻辑推理和自然语言推理,使用了两种模型: Mistral-7B-Instruct(江等,2023年)和Gemma-7B-Instruct(团队等,2024年)。我们的结果表明,通过我们的管道学习反向思考能够稳定地提高性能,平均性能提高了13.53%,比学生的零样本性能和广泛使用的Symbolic Knowledge Distillation(SKD)方法分别提高了6.84%。与其他数据增强基准相比,REVTHINK也表现出了类似的4.52%至7.99%的增益。我们的分析进一步突显了REVTHINK表现出的样本效率,在低资源环境中,仅使用10%的训练实例(通过我们的方法增强)就能超过应用于完整训练集的SKD(使用正向推理)的性能。此外,REVTHINK随着学生模型大小的增加(从2B到176B)呈正相关,即使后者参数量多25倍,也能在7B模型上取得比176B模型的零样本性能更好的结果。此外,REVTHINK在未见数据集上表现良好,并补充了现有的数据增强技术。
2 相关工作使用LLMs进行推理。大量研究表明,通过高级的测试时间方法,如提示和聚合,可以改善LLMs的推理能力。代表性方法包括思考链(CoT)(Kojima等,2022年;Wei等,2022年)和自洽(Wang等,2022年),思考树提示(Yao等,2024年),自我反思(Shinn等,2024年;Madaan等,2024年;Yao等,2022年),多智能体协作(Du等,2023年;Liang等,2023年;Wang等,2023年;Lu等,2024年;Feng等,2024年;Chen等,2023年)。已经提出了几项利用向后推理来验证思考链并改善数学推理的方法(Weng等,2022年;Jiang等,2024年),虽然有效,但这些方法在测试时间运行,与自洽等其他测试时间方法相比,显示出了适度的改进(Wang等,2022年)。此外,这些方法主要是为数学任务开发的,限制了其通用性。相比之下,REVTHINK通过精心策划的数据训练学生模型,使其能够以有条不紊的方式发展向后推理能力。该方法在保持与零次提示相同的测试时间效率的同时,提供了更大的改进,并能推广到更广泛的任务范围。
知识蒸馏。知识蒸馏是将知识从较大的教师模型传输到较小的学生模型的有效方式。经典知识蒸馏是从教师模型的分布中学习,其目标是最小化学生与教师的分布。最近的LLMs(大型语言模型)进展将重点转向利用这些较大模型的输出。教师模型提供“思考链”理由,可以直接从教师中抽样,通过引导生成,或从多个教师模型中获得。此外,教师模型的输出可以用来增强地面真实数据。我们的方法与这一最新趋势保持一致,利用教师模型生成“思考链”推理,以及后向问题和后向推理来增强数据。一系列研究致力于通过引导数学特定数据集来改进数学推理,正如我们在第1节中所论述的,数学推理具有固有结构,因此更适合通过修改名称和变量进行引导。类似地,Guo等人发现即使强大的LLMs也难以解决逆向数学问题,这表明这些模型可能仅仅是记忆问题而非真正理解。据我们所知,我们是第一次尝试教导较小的学生模型在广泛的推理任务中进行反向推理。双向学习。双向学习已在机器翻译、对话生成和问答等领域得到广泛研究。核心概念是利用任务固有的原始-对偶结构,如翻译中英德之间的双向关系。这种对偶结构在训练过程中作为一种正则化,从而增强两项任务的性能。REVTHINK还将后向问题生成和后向推理作为正则化形式,以提升推理能力。尽管双向学习与我们的工作密切相关,但先前研究中建立的双向关系,如机器翻译中的源-目标语言对,相对较为简单。相比之下,我们关注问题与其反向对应之间的相互逆关系。在我们的推理任务中,后向问题和后向推理通常缺失,必须由LLMs生成。我们的创新在于建立正向问题与正向推理之间以及反向问题与反向推理之间的关联,并利用这种联系一致性来达到训练目标。
3 方法REVTHINK主要包括两个阶段。在第3.1节中,我们提供了问题设置的正式描述。然后在第3.2节中描述了训练数据创建的细节。最后,在第3.3节中,我们介绍了学习目标。
3.1 问题设置假设有一个包含n个样本的数据集,其中每个样本包括一个问题Q(i)和其对应的答案A(i)。我们假设对于教师模型T,我们可以以黑匣子方式访问其输出,但无法获取其logits,并且我们的目标是训练一个更小的学生模型S,并增强其推理能力。在此期间。
在训练阶段,我们使用老师的示范来增强D,包括关于反向问题和反向推理。产生Daug。反向问题是指将原始问题颠倒过来的问题。例如,给定一个数学单词问题:John有3个苹果,Emma有2个,他们一共有多少苹果?相应的反向问题将是:John和Emma一共有5个苹果。如果Emma有2个,John有多少个?反向推理指的是解决这个颠倒问题的过程。然后我们使用Daug来训练学生模型S。在测试时,学生模型只被提示原始问题,类似于零-shot提示。
3.2 数据增强给定一个推理数据集,我们从增强它开始,以生成Daug,其中Daug中的每个数据点都包括
代表原始问题、正向推理、反向问题和反向推理,分别。请注意,Rf、Qb、Rb都是由教师模型T生成的。首先,我们通过提示T生成正向推理Rf,并且我们只保留导致正确答案的Rf的样本,即g(Rf) = A,其中g是一个答案提取函数。然后,通过在原始问题Q和地面真实答案A上条件化生成反向问题,使用详细的指导Ibq(见附录B):Qb = T(Q, A; Ibq)。
获得反向问题后,我们提示教师模型通过回答反向问题生成反向推理:Rb = T(Qb)。为了过滤不一致的对(即,反向推理与原问题造成冲突),我们提示T使用指示Icon(见附录C)进行一致性检查:c = T(Q,A,Qb,Rb;Icon),其中c ∈ {0,1}表示前向-后向推理是否一致。我们过滤出不一致的数据点,即,c = 0。换句话说,我们通过提示教师模型引入反向问题和反向推理来增强D,当且仅当(1)前向推理正确,并且(2)反向推理与问题一致时,我们保留样本。
3.3 学习目标我们用增强数据集Daug来训练学生模型S。为了内化向后推理过程,我们使用以下目标:
(a)正向推理 (b) 反向问题
(c)反向推理
其中,ℓ是预测和目标标记之间的交叉熵。具体来说,目标函数L由三个损失组成,充分利用我们增强的数据:(a) 从生成正向推理中学习、(b) 从生成反向问题中学习,并在(b)生成的反向问题条件下,(c) 从生成反向推理中学习。接下来我们将介绍每个组件的详细内容。
(a)生成正向推理。学生模型将原始问题Q作为输入,并生成一个正向推理Rf,类似于符号知识蒸馏(West等,2022年;Li等,2023年)。 (b) 生成反向问题。学生模型仍然以Q作为输入,但是学会生成反向问题Qb,即与Q相反连接的问题。 (c) 生成反向推理。学生模型以反向问题Qb作为输入,生成反向推理Rb,以回答Qb。
我们提出的目标旨在以多任务学习的方式将所有组件联系在一起。学习生成倒置问题和学习生成倒置推理的目标。
(objectives (b) and (c))被视为辅助任务 - 在推断过程中,我们只要求训练过的学生模型回答原始问题。我们在表1和图4中展示,学习这两个辅助任务可以进一步提高测试时的性能。多任务学习的另一种可能方式是将这三个目标分离为三个实例,并应用不同的指导进行微调。经验上,我们发现我们提出的目标更为有效,如后面在表2中所示。
4 实验设置我们使用Gemini-1.5-Pro-001(Reid等,2024年)作为教师模型T,Mistral-7B-Instruct-v0.3和Gemma-7B-Instruct作为学生模型S。在训练过程中,我们使用LoRA微调(Hu等)。
2022年)排名第32位。对于所有基线模型以及我们的方法,我们使用vllm (Kwon等人,2023年)和贪婪解码(温度为0)。学生模型在数学推理任务(MATH和GSM8K)上进行了3个时期的微调,对于所有其他领域,我们进行了10个时期的微调。对于Mistral-7B-Instructv0.3,我们将学习率设置为5e-6,而对于Gemma-7B-Instruct,我们使用学习率为2e4。这些配置在所有基线比较中保持一致。我们在各种任务上评估我们的方法:常识推理:StrategyQA(SQA;Geva等,2021年)、CommonsenseQA(CSQA;Talmor等,2019年)、ARCchallenge(ARC;Clark等,2018年)。数学推理:MATH(Hendrycks等,2021年)、GSM8K(Cobbe等,2021年)。表格数据推理:
TabMWP(Lu等,2023)。自然语言推理:ANLI(Nie等,2020)。逻辑推理:日期理解(bench作者,2023)。我们将与三类基线进行比较如下。 (1)零炮击:我们将与学生的零炮击表现(Kojima等,2022)进行比较,作为参考。 (2)知识蒸馏:我们将与符号知识蒸馏(SKD;Li等,2023a;West等,2022)进行比较,该方法从教师模型生成CoT并应用下一个标记预测损失作为目标。我们还将与逐步蒸馏(Hsieh等,2023)进行比较,该方法除了CoT原理外还采用损失来预测标签。 (3)数据增强:这组基线使用各种方法来增加数据集,同时应用相同的下一个标记预测目标。我们将与以下进行比较:(a)问题重述(Yu等,2024),该方法要求教师模型复述问题以创建新问题。 (b)问题增强(Li等,2024),教师模型基于原始问题生成新问题。 (c)答案增强(Yu等,2024),为每个问题从教师模型中抽样另一个正确的推理链。
5 结果与分析5.1 主要结果我们在表1中呈现了我们的主要结果。
首先,REV-THINK展示了优越的平均表现,胜过所有基线模型和数据集。与学生模型的零-shot性能相比,REVTHINK在Mistral上平均改善了12.68%,在Gemma上改善了14.37%。此外,与依赖于使用来自教师模型的正确推理链进行监督微调的SKD和Distill Step-by-Step相比,REVTHINK表现出6.44%至7.15%的显着改进。与基于数据增强的基线模型相比,REV-
THINK表现出更大的性能提升,尤其在常识推理、表格推理和日期理解等领域。虽然一些增强方法,如答案增强(AnsAug),对数学推理很有效,但它们在其他领域的改进较少,这表明数学作为一个更为结构化的领域,通过额外数据的规模扩展更好(Li等,2024年;Yuan等,2023年)。相反,
REVTHINK在各种推理任务中持续提高表现。后文中的表3还表明,当在保留数据集上进行评估时,REVTHINK在一个跨领域的数学数据集上显示出更大的增益。
5.2 附加分析REVTHINK表现出了样本效率。在展示了REVTHINK在完整训练集上胜过所有基线模型后,我们现在探讨了REVTHINK和SKD基线在不同训练数据部分(用p ∈{0.1,0.25,0.5,1.0}表示)上的性能。例如,当p = 0.1时,我们对SKD微调抽取了10%的正确前向推理,并采用了我们在第3节中描述的数据增强方法进行微调。图3所示的结果表明REVTHINK表现出了强大的样本效率。在多个推理任务中,
REVTHINK在所有层面上一直表现优于SKD,在StrategyQA上甚至在p = 1.0时也超过了SKD, 仅使用10%的数据。向后生成问题提升了性能,但完整利用我们的数据集得到了最佳表现。请记住,我们教师数据中的每个实例都是一个元组,包括原始问题、向前推理、反向问题和反向推理。我们分析了哪种组合的成分能最大程度地加强学生模型。在图4中,我们发现从所有成分中学习会导致最佳表现。除此之外,我们发现:(1)仅从回答反向问题中学习会损害表现。在图4中,仅使用Qb → Rb会导致最差的表现,甚至可能低于原始学生模型的零-shot表现。这可能是因为反向问题不完全在域内,并且专注于它们可能导致分布偏移,从而损害整体表现。(2)学习生成反向问题可以改善学生模型。在这里,我们提到(Q → Rf)&(Q → Qb),在这种设置中,学生模型有两个学习目标:一个是通过生成向前推理来回答问题,另一个是给定原始问题生成反向问题。我们观察到,添加反向问题生成到学习目标中已经改善了学生模型。然而,我们表明添加Qb → Rb,使学生也学会回答反向问题,是最有效的。
REVTHINK的目标比单独实例与指导调整更有效。已经证明我们的数据增强.
表2:学习变体的比较。我们的联合目标相比于将每个实例分为三个进行多任务训练表现最好。
由于正文段落内容为英文,需要将其翻译为中文: 该方法是有效的,并且从所有组件中学习可以带来最佳表现,我们进一步研究了利用扩充数据的其他可能途径。我们将REVTHINK与两种设置进行比较:(1)多任务(指导):每个实例分为三个实例:然后针对每一对使用不同指令训练学生模型。(2)多任务(任务前缀):不同于使用不同指令,我们为每个任务指定一个前缀。例如,在学习Q → Rf时附加一个特殊词 [FR]。表2中的结果表明我们的联合目标效果最好。
250300350400450
平均标记数量(在训练中)
图5:训练中每个样本的平均标记数与测试时间准确率。虚线显示与基线的回归。我们的方法在标记数略微增加的情况下胜过基线。请注意,REVTHINK在测试时间生成的标记数与所有基线相当。
REVTHINK仅使用稍微更多的标记就获得了更大的改进。我们注意到,通过我们的方法增加数据集会在训练过程中产生更多的标记。虽然对于任何数据增强方法都是如此,但我们会比较增加的标记数量和测试时的性能。在图5中,我们与SKD、Ques进行比较。
图6:REVTHINK与学生模型规模有效扩展。值得注意的是,Mistral-7B + REVTHINK的表现优于Mistral-8x22B(红色虚线)8.36%。
tion Rephrasing (QR), Question Augmentation (Q Aug) and Answer Augmentation (AnsAug)。令牌计数和准确性在所有数据集上取平均值。我们发现,虽然我们的方法产生的令牌略多于AnsAug,但在很大程度上表现优于它,如REVTHINK与虚线回归线的偏差所示。
REVTHINK与模型大小呈正相关。我们在StrategyQA上使用不同大小的模型(所有模型都经过指令调整)应用REVTHINK。如图6所示,我们的方法表现出随着模型大小增加而准确性明显提升的趋势。对于每种模型大小,应用我们的方法都会带来一致的改善。值得注意的是,使用我们的方法的Mistral-7B比拥有25倍参数的Mistral-8x22B高出8.36%,这些结果凸显了REVTHINK与模型大小的有效扩展。
表3:四个留存数据集上的性能比较。相较于基线模型,REVTHINK表现出更好的泛化能力,这表明反向增强思考有助于更好地理解问题,同时降低过拟合的风险。
REVTHINK泛化到OOD数据集。我们观察到,与基线相比,REVTHINK表现出更好的泛化能力。具体而言,我们在四种不同的设置中评估REVTHINK与基线:(1)在StrategyQA上训练并在BoolQ上测试(Clark等人,2019年),(2)在ARC-c上训练并在OpenbookQA上评估(Mihaylov等人,2018年),(3)在ANLI上训练并在e-SNLI上测试(Camburu等人,2018年),以及(4)在GSM8K上训练并在GSM8KReversal上评估(Guo等人,2024年)。如表3所示,REVTHINK表现出比基线更优越的泛化能力,在GSM8K上取得2.11%的改进。
BoolQ在OpenbookQA上取得了3.20%的改进,在e-SNLI上则取得了更大的5.35%的增长。值得注意的是,GSM8K-Reversal是通过提示GPT-4(Achiam等人,2023年)生成的数据集,保持了原始GSM8K问题的风格和格式,同时通过交换答案变量和给定变量来颠倮任务。虽然所有方法在这个反向的GSM8K上表现出了降低的性能,但REVTHINK显示出更大的改进,比AnsAug表现出了3.09%的优势。总的来说,这些结果表明学会向后推理不仅增强了领域内的推理能力,还提高了对未见数据集的泛化能力。
表4:REVTHINK作为AnsAug等现有方法的补充。尽管AnsAug通过采样更多的正向推理显示出改进,但集成REVTHINK进一步改进了,通过实现反向推理。
REVTHINK补充了现有方法。通过回答增强(AnsAug)作为表现最佳的增强基准,我们展示了REVTHINK的互补优势。在表4中,我们比较了仅使用AnsAug、仅使用REVTHINK以及二者组合的表现。对于AnsAug + REVTHINK,我们遵循与第3节中相同的增强数据集和过程 - 唯一的区别是从教师模型中再抽样另一个正确的推理链条用于每个问题 - 就像AnsAug一样。我们发现,虽然AnsAug和REVTHINK都比SKD单独提供了改进,但二者组合的效果更好,表明REVTHINK有效地补充了像AnsAug这样的现有数据增强方法。REVTHINK在可逆和中等难度问题上表现出更大的改进。我们进一步探讨了REVTHINK何时展现其优势。在图7中,我们按照原始数据集中标注的问题类型和难度,将正确预测结果进行了详细分类(Hendrycks等人,2021)。REVTHINK在初等代数、预微积分和计数与概率中表现出最大的提升,但在数论中没有显著增益。这可以归因于事实。
图7: MATH数据集的分析结果。每组柱状图显示了我们的结果在左侧,SKD基准在右侧。
数论等学科往往不太可逆,即向后思考并不提供太多优势,或者问题本身无法被逆转。相比之下,诸如代数、微积分和计数等领域通常表现出问题与解决方案之间的逆向关系,使它们更适合REVTHINK的方法。有趣的是,尽管在各种难度级别上REVTHINK的表现均优于SKD,但在3级问题上呈现出最大的改善,表明中等难度的问题最受益于REVTHINK。
6 结论我们提出了REVTHINK框架,通过实现向后推理来改进LLM。我们提出了一种有效的数据增强方法,从教师模型生成结构良好的前向后向数据,同时我们还提出了一个有效的学习目标,通过辅助任务充分利用这些增强数据。实验结果不仅显示REVTHINK在广泛任务上的12个数据集上是有效的,还揭示了额外的好处,包括样本效率、泛化能力以及对现有方法的补充强度。
限制条件
尽管努力使最先进的大语言模型(LLMs)更安全、更值得信赖(Liu et al., 2023),但在使用中的教师模型。
REVTHINK仍然可能产生偏颇的回应或反映其预先训练数据中深藏的刻板印象。因此,通过蒸馏生成的学生模型可能会继承这些不良特征,这是任何蒸馏方法固有的挑战。换句话说,由于学生模型是从教师模型中学习的,它们仍然容易产生类似的偏见输出。因此,通过REVTHINK蒸馏创建的模型与其他基于LLM的方法一样存在被误用的风险。需要进一步开展研究来有效评估和减轻LLM中的这些偏见。
7 参考文献省略
A附加分析
A.1 验证提高数据质量。表格5:教师验证提高数据质量,验证缺失时性能下降。
在3.2节中,我们注意到我们的数据增强包括由教师模型进行的验证阶段。在这个消融实验中,我们研究了在下游性能上的差异。表5中的结果显示,移除验证会导致性能下降,表明验证可以提高数据质量,尽管训练样本的数量可能会减少。
反向问题生成提示(多项选择问题)
你的任务是根据输入问题及其正确答案生成一个带有{n}个答案选项的反向问题。请遵循以下规则:
根据输入问题的正确答案,创建一个相关但相反的新问题。
确保{n}个新答案选项与{n}个输入问题选项呈负相关关系。
确保您生成的问题中只有一个答案选项是正确且合理的。
你生成的问题中的正确答案必须包含在输入问题中。
生成的问题和答案选项应与输入问题在语义上有明显区别。
{in_context_samples}
{input_question}
反向问题生成提示(数学推理问题)
你的任务是根据输入问题及其正确答案生成一个反向问题。请遵循以下规则:
使用输入问题的正确答案来创建一个新的、相关但相反的问题。
确保你所生成的问题中只有一个正确答案。
生成的问题在语义上应与输入问题不同。
{in_context_samples}
{input_question}
我们使用的提示Ibq用于生成反向问题。它们是一般的模板,我们根据任务插入特定的{in_context_samples}。下面,我们为每个任务提供了上下文示例。
在StrategyQA中的上下文示例。
虾仁扎粉是否绝对不含塑料?正确答案是否定的。
如果虾仁scampi 不是绝对不含塑料的,那么虾仁 scampi 可能含有塑料吗? (A) 是 (B) 不是。 正确答案是 (A)。
如果一名零售员羡慕零售商CEO的工资,那么CEO的工资就比零售员的工资低。答案是(B)。
你是否应该怀疑一个自称拥有博士学位的21岁年轻人?正确答案是肯定的。
如果你对一个声称拥有博士学位的21岁年轻人感到怀疑,那么一个人获得博士学位的平均年龄低于21岁。(A)较高(B)较低。正确答案是(A)。
一个严格的素食主义者会吃传统的西班牙海鲜饭吗?正确答案是否定的。
如果一个素食主义者不会吃传统的西班牙海鲜饭,那么海鲜饭中_包含动物或动物制品 (A) 必须 (B) 不能。正确答案是 (B)。
在ARC 中的上下文示例。
乔治想通过擦手来迅速暖和手部。哪种皮肤表面会产生最多的热量?(A) 干燥的手掌 (B) 潮湿的手掌 (C) 涂抹油的手掌 (D) 涂抹乳液的手掌。正确答案是 (A)。
OUTPUT:乔治正在擦拭他干燥的手掌。他最有可能是在尝试做什么?(A) 暖手 (B) 滋润手部 (C) 护理皮肤(D) 为手部润滑。正确答案是(A)。INPUT: 以下哪个陈述最好地解释为什么磁铁通常会吸附在冰箱门上?(A) 冰箱门表面光滑 (B) 冰箱门含有铁 (C) 冰箱门是良好的导体 (D) 冰箱门内有电线。正确答案是(B)。如果冰箱门含有铁,以下哪种情况最有可能发生? (A)
冰箱门会很滑(B)磁铁通常会粘在冰箱门上(C)一个人触摸冰箱门会被电击(D)冰箱门里没有铁就无法工作。正确答案是(B)。
沉积岩层中观察到的褶皱最有可能是由于(A)流动岩浆的冷却(B)碳酸盐矿物的溶解(C)河流沉积物的沉积(D)地壳板块的聚合引起的。正确答案是(D)。
哪一项最可能是由合并的地壳板块引起的?(A) 火山喷发 (B) 洞穴形成 (C) 河流三角洲的形成 (D) 沉积岩层中观察到的褶皱。正确答案是 (D)。
在一个种群中,雄性昆虫被处理以阻止精子的产生。这会减少这种昆虫的数量吗?(A)不会,因为昆虫依然会交配(B)不会,因为这不会改变后代的突变率(C)会,因为这会大幅降低繁殖率(D)会,因为雄性会死亡。正确答案是(C)。
什么是使昆虫种群繁殖率急剧下降最有可能的原因?(A)昆虫进行交配(B)后代突变率恒定(C)种群中的雄性昆虫受到处理以阻止精子产生(D)雄性昆虫少于雌性昆虫。正确答案是(C)。
数学中的上下文示例。
OUTPUT:五个数字的平均数为13,另一个六个数字的平均数为24。所有十一个数字的平均数是多少?正确答案是19。
一个由六个数字组成的集合的平均值是24,而所有十一个数字组成的集合的平均值是
每组五个数的平均值是多少?输入:30的什么?正确答案是25。
如果X为25,未知变量X的值是多少?
OUTPUT: 27加两倍的一个数等于39。这个数是多少?正确答案是6。
27加6乘以2是一个数字。这个数字是多少?
在一个特定的直角三角形中,两条腿的长度分别为40英寸和42英寸。这个三角形的面积是多少?正确答案是840。
在一个特定的直角三角形中,两条腿的长度分别为40英寸和X英寸。三角形的面积为840。未知变量X的数值是多少?
在GSM8K中的上下文示例。
Natalia在四月份向48位朋友出售了夹子,然后在五月份卖出了一半的夹子。 Natalia在四月和五月一共卖出了多少夹子?正确答案是72.0。
娜塔莉娅在四月份卖了x 个夹子给她的朋友,然后五月份卖了一半数量的夹子。
如果纳塔莉亚在四月和五月一共销售的夹子数量为72个,那么x的值是多少?
马克有一个有花朵的花园。他在里面种植了三种不同颜色的植物。十朵是黄色的,紫色的植物比黄色的多80%。绿色花朵的数量只有黄色和紫色花朵的数量的25%。马克的花园里有多少朵花?正确答案是35.0。
马克有一个种满鲜花的花园。他在其中种植了三种不同颜色的植物。其中有 x 朵是黄色的,紫色的数量比黄色的多80%。绿色的花朵数量只有黄色和紫色花朵数量的25%。如果马克的花园里有35朵花,那么 x 的值是多少?深海怪物每过一百年就会从水中升起,来吞噬一艘船并满足它的饥饿。在三百年间,它已吞噬了847人。随着时间推移,船只造得越来越大,所以每艘新船上的人数是上一艘的两倍。在前一百年怪物吞噬的船上有多少人?正确答案是121.0。
每隔一百年,一只深海怪物从水中冒出,吞噬一艘船只以满足其饥饿。随着时间的推移,船只变得越来越大,因此每艘新船的人数是上一艘船的两倍。在第一个一百年里,它吞噬了121人。第三个一百年里怪物吞噬的船只上有多少人?
Alexis正在申请一份新工作,并购买了一套新的商务服装去面试。她去了一家百货商店,预算为200美元,花了30美元买了一件衬衫,46美元买了一条西裤,38美元买了一件西服外套,11美元买了一双袜子,18美元买了一条皮带。她还买了一双鞋,但丢失了它们的收据。她从预算中还剩下16美元。Alexis为鞋子支付了多少钱?答案是41.0。
Alexis正在申请一份新工作,买了一套新的商务服装去参加面试。她去了一家百货商店,预算是200美元,在一件领扣衬衫上花了30美元,一件西服外套38美元,袜子11美元,皮带18美元,鞋子41美元。她还购买了一条西裤,但丢失了收据。她的预算剩下16美元。Alexis买西裤花了多少钱?
在日期文本中的示例
昨天是2021年4月30日。今天的日期是多少?(A) 03/11/2021 (B) 05/01/2021 (C) 02/23/2021 (D) 04/29/2021 (E) 05/09/2021 (F) 06/12/2021。正确答案是(B)。
今天是2021年5月1日。昨天是几月几日?(A)03/11/2021(B)04/30/2021(C)02/23/2021(D)04/29/2021(E)05/09/2021(F)06/12/2021。正确答案是(B)。
截止日期是2021年6月1日,距离现在还有2天。今天是几月几日的日期?(A) 06/20/2021 (B) 05/30/1980 (C) 05/22/2021 (D) 05/30/2021 (E) 04/30/2021 (F) 04/15/2021。正确答案是(D)。
今天是2021年5月30日,距离截止日期还有2天。截止日期是哪一天?正确答案是(D) 06/01/2021。
明天是2019年11月12日。一个月前是什么日期,以MM/DD/YYYY形式?(A) 10/11/1974
(B) 2019年10月10日 (C) 2019年10月12日 (D) 2018年10月11日 (E) 2019年10月16日 (F) 2019年10月11日。正确答案是(F)。
OUTPUT:一个月前的日期是2019年10月11日。明天是几号?(A) 1974年10月11日 (B) 2019年10月10日 (C) 2019年10月12日 (D) 2018年10月11日 (E) 2019年10月16日 (F) 2019年11月12日。正确答案是:
(F).
今天,1997年8月3日,是我们永远不会忘记的一天。在MM/DD/YYYY格式中,10天前是什么日期?(A) 08/21/1997 (B) 10/24/1997 (C) 07/24/1997 (D) 07/23/1997 (E) 06/11/1997 (F) 08/14/1997。正确答案是(C)。
OUTPUT:十天前的日期是1997年07月24日,今天是什么日期?(A) 1997年08月21日 (B) 1997年10月24日 (C) 1997年08月03日 (D) 1997年07月23日 (E) 1997年06月11日 (F) 1997年08月14日。正确答案是(C)。
CPrompt for Verification
给定两个问题-答案对,(Q1, A1)和 (Q2, A2)。
你的任务是检查问题1和答案2之间的一致性。
如果(1)在Q1中找到A2,并且(2)A2是正确的,则输出“True”。
否则,如果Q1和A2没有关联,或者A2不正确,则输出“False”。
{in_context_samples}
这个文本段落已经是中文,无需翻译。
提示图标用于验证一致性的公式 c = T (Q,A,Qb,Rb;Icon) 遵循上述结构。同样,它作为一个通用模板,可以填入上下文示例,如下所示。
校验(多项选择题)的上下文示例。
INPUT: Q1: George wants to warm his hands quickly by rubbing them. Which skin surface will produce the most heat? (A) dry palms (B) wet palms (C) palms covered with oil (D) palms covered with lotion. A1: The correct answer is (A). Q2: If George’s palms are dry, what will happen when he rubs them together? (A) His hands will cool down. (B) His hands will warm up. (C) His hands will become wet. (D) His hands will become oily. A2: The correct answer is (B).
A2正在选择(B),他的双手会变暖。Q1说明乔治想要暖手。因此A2和Q1匹配,它们一致。正确
输入:Q1:以下哪项是狗没有从父母那里继承的特征?(A)它的毛发长度(B)它的鼻子形状(C)它的食欲大小(D)它的毛发颜色。A1:正确答案是(C)。Q2:如果狗的特征不是从父母那里继承的,这个特征可能取决于什么?(A)狗的品种(B)狗的环境(C)狗的年龄(D)狗的性别。
A2:正确答案是 (B)。
A2正在选择(B)狗的环境。Q1询问狗不会从父母那里继承哪种特质。所以A2与Q1不匹配,它们不一致。错误。
Q1:沉积岩层中观察到的褶皱最有可能是由于(A)流动岩浆的冷却(B)地壳板块的聚合(C)河流沉积物的沉积(D)碳酸盐矿物的溶解所导致的。A1:正确答案是(B)。Q2: 以下哪种现象最有可能是由于地壳板块的聚合引起的?(A)峡谷的形成(B)沉积岩层中观察到的褶皱(C)该地区火山活动的增加(D)大湖的形成。A2:正确答案是(B)。
OUTPUT: A2正在选择(B)观察到的沉积岩层中的褶皱。Q1询问观察到的沉积岩层中褶皱的原因。所以A2匹配Q1,它们是一致的。True INPUT: Q1: 如果新月发生在6月2日,那么下一个新月将在何时发生?(A) 6月30日
6月28日(B) 6月23日(C) 6月15日(D) 。A1:正确答案是(A)。Q2:从天文学角度来看,我们在6月30日左右可以庆祝什么?(A)一轮满月(B)月食(C)新月(D)流星雨。A2:正确答案是(C)。
OUTPUT: A2正在选择(C)一个新月,Q1询问下一个新月将于何时发生,如果上一个新月是在6月2日。因此,A2和Q1不匹配,它们不一致。验证上下文中的虚假示例(数学推理问题)
Q1:若 (x + 2)(x − 3) = 14, 求 x 的可能值之和。 A1: 正确答案是 1。 Q2: 若方程 (x+2)(x−3) = Y 中 x 的可能值之和为 1,求 Y 的值。 A2: 正确答案是 0。
A2给出的答案是0,但在Q1中我们看到Y = 14,所以A2是不正确的,它们不一致。错误。
Q1:评估表达式(a2 + b)2 − (a2 − b)2,如果a = 4,b = 1。A1:正确答案是64。 Q2:如果(a2 + b)2 − (a2 − b)2 = 64,而b = 1,a的正值是多少?A2:正确答案是4。
A2给出的答案是4,在Q1中我们看到a确实等于4,因此A2是正确的,它们是一致的。正确
Q1:方程2x² - 5x - 4 = 0的根可以写成的形式,其中m、n和p是最大公约数为1的正整数。求n的值是多少?A1:正确答案是57。 Q2:方程2x² - 5x - 4 = 0的根可以写成的形式,其中m、n和p是最大公约数为1的正整数。
p的值是多少?答案是4。
OUTPUT: A2给出的答案是4,这是正确的,与Q1相一致。 True INPUT: Q1:简化。A1:正确答案是72。Q2:如果X的值是多少
正确答案是16。
A2给出的答案是16,而在Q1中我们看到答案应该是576,所以A2是不正确的,它们不一致。错误。
Q1:Baez有25颗弹珠。一天她失去其中的20%。然后一个朋友看到了她,并给了她失去之后的弹珠数量的两倍。Baez最终有多少颗弹珠?A1:正确答案是60。Q2:Baez有一些弹珠。一天她失去其中的20%。然后一个朋友看到了她,并给了她失去之后的弹珠数量的两倍。如果Baez最终有60颗弹珠,她一开始有多少颗?A2:正确答案是38。
A2给出的答案是38,而我们在Q1中看到答案应该是25,所以A2是不正确的,它们之间不一致。错误。
Q1:托尼的爸爸对洗衣机很严格,家庭成员一次只能洗50盎司的衣物。托尼不想违反规定,所以他称了一下他的衣物,发现一双袜子重2盎司,内裤重4盎司,衬衫重5盎司,短裤重8盎司,裤子重10盎司。托尼要洗一条裤子,2件衬衫,一条短裤和3双袜子。他还可以再加入多少条内裤而不违反规定?答案是4。
2盎司,内衣重4盎司,一件衬衫重5盎司,短裤重8盎司,裤子重10盎司。如果Tony洗一条裤子,2件衬衫,一条短裤,x双袜子和4条内裤,而不违反规则,那么x的值是多少?答案是3。
A2给出了3作为答案,这是正确的,与Q1一致。True
在上下文中进行验证的样本(数学推理问题,续)
Q1: Olga有一个水族箱,里面有5种不同颜色的鱼。有12条黄色的鱼,蓝色的鱼数量是黄色的一半,绿色的鱼数量是黄色的两倍。Olga的水族箱里有多少条鱼?A1: 正确答案是42。Q2: Olga有一个水族箱,里面有5种不同颜色的鱼。有黄色、蓝色和绿色的鱼,还有其他一些颜色。绿色的鱼数量是黄色的两倍,蓝色的鱼数量是黄色的一半。如果Olga的水族箱里总共有42条鱼,那么她有多少条黄色的鱼?A2: 正确答案是12。
输出:A2 给出的答案是 12,这是正确的,与 Q1 一致。True 输入:Q1:Jay 和 Gloria 在他们的房子举办了一个七月四日派对。Jay 邀请了 22 个人,Gloria 邀请了 36 个人。他们想为每个人购买小美国国旗。手工艺品店有小旗帜的促销活动,5个旗帜 1 美元。如果他们想让所有客人都拥有一面国旗,并且他们自己也想要一面,并最终在手工艺品店花费了多少钱?A1:正确答案是 12。Q2:Jay 和 Gloria 在他们的房子举办了一个七月四日派对。Jay 邀请了 22 个人,Gloria 邀请了更多人。他们想为每个人购买小美国国旗。手工艺品店有小旗帜的促销活动,5个旗帜 1 美元。如果他们想让所有客人都拥有一面国旗,以及他们自己一面,并最终在手工艺品店花费了 12 美元,Gloria 邀请了多少人?A2:正确答案是 35。
A2给出的答案是35,而在Q1中我们看到答案应该是36,所以A2是不正确的,它们不一致。错误。
例子策略QA
原问题(Q):The Police的成员能够进行合法逮捕吗?前向推理(Rf):以下是逐步的推理:
1.警察是一支摇滚乐队:他们的成员是音乐家,而不是执法人员。2. 执法人员有特定的权力:这些权力是由政府授予的,包括逮捕的能力。
3.名为“The Police”的乐队并不具有法律权威:乐队名称是艺术选择,与法律权限无关。
因此,憲警成員無法執行合法逮捕。
答案是**不**。
反问句(Qb):如果警察的成员不能进行合法逮捕,那么警察很可能是(A)音乐家(B)警察。
反向推理(Rb):这里是推理:
这个问题暗示着“警察”一词可能有两种可能的含义。
一种含义是指一个可以进行合法逮捕的群体。这就是警务人员的定义。
另一种含义指的是一组没有权力进行合法逮捕的团体。现在,我们需要将这句话翻译成中文。
由于问题陈述指出这个团体无法进行合法逮捕,他们不能成为警察。
因此,在这种情况下,“The Police”很可能指的是一个以其他方面而不是执法著称的团体,这使得他们很可能是音乐家。
答案是(A)
在GSM8K上的例子。
James每周给两个不同的朋友写一封三页的信。他一年总共会写多少页?
正向推理(Rf):这是解决问题的方法:
**每个朋友每周的页数:** James写信3页/封 * 每周2封 = 每位朋友每周6页。
**每周总页数:** 他每周写6页/朋友 * 2位朋友 = 每周12页。
**每年的总页数:** 他每周写12页 * 52周/年 = 624页/年。
答案是 624。
反问题(Qb):詹姆斯每周给两个不同的朋友写两封信,一年写624页。他给每个朋友写的信有多长?
反向推理(Rb):这是如何解决这个问题的方法:
1.**每周计算总信件数:** 詹姆斯每周写2封信 * 2个朋友 = 每周4封信。 **每年计算总信件数:** 假设一年有52周,他每周写4封信 * 52周/年 = 每年208封信。
**计算每个字母的长度:** 他每年写624页 / 208个字母 = 每个字母3页。
答案是3
表6:本研究中使用的数据集按出现顺序列出。对于每个数据集,我们报告领域、原始训练样本数量、筛选后的训练样本数量以及测试样本数量。
请注意,最后四个数据集被保留,因此不包含任何经过筛选的训练样本。由于数据规模较大,
在ANLI的训练集中,我们随机抽取了2,000个实例,经过筛选后剩下883个。对于日期理解数据集,由于其规模较小,我们将数据随机分为200个训练样本和169个测试样本,并保留所有的训练数据。
来源:人工智能学家