粗度SELF-CONSISTENCY IMPROVES

摘要：思维链提示与预训练的大型语言模型相结合，在复杂推理任务中取得了令人鼓舞的成果。在本文中，我们提出了一种新的解码策略--自我一致性，以取代思维链提示中使用的天真贪婪解码。它首先对不同的推理路径进行采样，而不是只选择贪婪的推理路径，然后通过将采样的推理路径边缘化来

ICLR2023摘要

思维链提示与预训练的大型语言模型相结合，在复杂推理任务中取得了令人鼓舞的成果。在本文中，我们提出了一种新的解码策略--自我一致性，以取代思维链提示中使用的天真贪婪解码。它首先对不同的推理路径进行采样，而不是只选择贪婪的推理路径，然后通过将采样的推理路径边缘化来选择最一致的答案。自我一致性利用了这样一种直觉，即一个复杂的推理问题通常可以通过多种不同的思维方式得出唯一的正确答案。我们广泛的实证评估表明，在一系列流行的算术和常识推理基准测试中，自我一致性显著提高了思维链提示的性能，包括 GSM8K（+17.9%）、SVAMP（+11.0%）、AQuA（+12.2%）、StrategyQA（+6.4%）和 ARC-challenge（+3.9%）。

引言

在本文中，我们引入了一种名为 “自一致性 ”的新型解码策略，以取代思维链提示中使用的贪婪解码策略（Wei 等人，2022 年），从而进一步显著提高语言模型的推理性能。自洽性利用了这样一种直觉，即复杂的推理任务通常包含多个推理路径，从而得出正确答案（Stanovich 和 West，2000 年）。一个问题越是需要深思熟虑和分析（Evans，2010），就越需要多种推理路径来得出答案。

自洽方法包括三个步骤： (1) 使用思维链（CoT）提示法对语言模型进行提示；(2) 从语言模型的解码器中采样，以生成一系列不同的推理路径，从而取代 CoT 提示法中的 “贪婪解码”；(3) 剔除推理路径，并通过在最终答案集中选择最一致的答案进行汇总。

图 1 举例说明了自洽方法。我们首先用思维链提示法提示语言模型，然后我们提出了一种 “抽样-边际化 ”（"sample-and-marginalize"）解码程序，而不是贪婪地解码出最优推理路径：我们首先从语言模型的解码器中抽样，生成一系列不同的推理路径；每种推理路径可能会导致不同的最终答案，因此我们通过边际化抽样出的推理路径来确定最优答案，从而在最终答案集中找到最一致的答案。这种方法类似于人类的经验，即如果多种不同的思维方式都能得出相同的答案，那么人们就会对最终答案的正确性更有信心。与其他解码方法相比，自洽性避免了困扰贪婪解码的重复性和局部最优性，同时减轻了单次采样生成的随机性。

从这一段看还是搜索

我们评估了四种不同规模的语言模型在各种算术和常识推理任务中的自洽性：公共的 UL2-20B （Tay 等人，2022 年）和 GPT-3-175B （Brown 等人，2020 年），以及两种仅密集激活解码器的语言模型： LaMDA-137B（Thoppilan 等人，2022 年）和 PaLM-540B （Chowdhery 等人，2022 年）。在所有四种语言模型中，自我一致性在所有任务中都比思维链提示有显著提高。特别是，当与 PaLM-540B 或 GPT-3 一起使用时，自我一致性在算术推理任务中的表现达到了最新水平，包括 GSM8K（Cobbe et al、 2021）（绝对准确率提高 17.9%）、SVAMP（Patel 等人，2021）（提高 11.0%）、AQuA（Ling 等人，2017）（提高 12.2%），以及 StrategyQA（Geva 等人，2021）（提高 6.4%）和 ARCchallenge（Clark 等人，2018）（提高 3.9%）等常识推理任务。在其他实验中，我们显示自我一致性可以有力地提高 NLP 任务的性能，在这些任务中，与标准提示相比，添加思维链可能会损害性能（Ye & Durrett，2022 年）。我们还表明，自我一致性明显优于抽样排序法、波束搜索法和基于集合的方法，并且对抽样策略和不完善的提示具有鲁棒性。

SELF-CONSISTENCY OVER DIVERSE REASONING PATHS

采样方法有很多

更详细地说，假设生成的答案 ai 来自一个固定的答案集，ai ∈ A，其中 i = 1, . , m 表示从解码器采样的 m 个候选输出。给定一个提示和一个问题，自洽性引入了一个额外的潜变量 ri，它是代表第 i 个输出中推理路径的标记序列，然后将 (ri, ai) 的生成耦合在一起，其中 ri → ai，即生成推理路径 ri 是可选的，只用于得出最终答案 ai。以图 1 中的输出 3 为例：前几句 "她早餐吃 3 个......。1 从模型的解码器中采样多个 (ri, ai) 之后，自洽性通过对 ai 进行多数票表决，对 ri 进行边际化，即 arg maxa∑m i=1 1(ai=a)，也就是我们定义的最终答案集中最 “一致 ”的答案。、

除了多数票外，我们还可以在汇总答案时用 P (ri, ai | prompt, question) 对每个 (ri, ai) 进行加权。请注意，要计算 P (ri, ai | prompt, question)，我们可以取给定（prompt, question）的模型生成（ri, ai）的非归一化概率，也可以用输出长度对条件概率进行归一化（Brown 等人，2020 年），即：

log P (tk | prompt, question, t1, ... , tk-1)是以前面的token的情况下，在（ri, ai）中生成第 k 个标记的对数概率，K 是（ri, ai）中标记的总数。表 1 显示，采用 e "unweighted sum"，即直接对 ai 进行多数票表决，与采用 "normalized weighted sum"进行汇总的准确率非常接近。

需要注意的是，self-consistency只适用于最终答案来自固定答案集的问题，但原则上，如果能在多代之间定义一个良好的一致性度量，例如两个答案是一致还是矛盾，那么这种方法可以扩展到开放文本生成问题。

数据集

Arithmetic reasoning.

Commonsense reasoning.

Symbolic Reasoning.

与其它方法的比较

sample-and-rank

multiple sequences are sampled from the decoder and then ranked according to each sequence's log probability

Beam Search

注意： self-consistency也可以采用beam search 来解码每条推理路径，但其性能比使用采样的自洽性差。原因是beam search 产生的输出多样性较低

Ensemble-based Approaches

请注意self-consistency与典型的model-ensemble 方法不同，后者是对多个模型进行训练并将其输出汇总。自洽性更像是在单一语言模型基础上的 “自组装”。