摘要:研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。
【导读】 研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。
长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。
没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?倾向于问什么类型的问题?LLMs生成的问题与人类编写的问题又有哪些不同?
最近,加州大学伯克利分校、阿卜杜勒阿齐兹国王科技城、华盛顿大学的研究人员提出了一种基于LLMs的自动化评估方法,重点关注问题的长度、类型、上下文覆盖范围和可回答性等维度,结果发现LLMs倾向于生成需要描述性、较长答案的问题;
常见的问答任务中,人类更倾向于选择文章的开始结束位置生成问题,LLMs对整个上下文的关注更加均衡。
论文链接:https://arxiv.org/pdf/2501.03491
虽然已经有研究通过实证来评估人类一致性,但还没有将LLMs生成问题的质量标准与人类生成问题进行对比。
这篇文章首次揭示了LLMs在问题生成中的偏好,通过引入自动评估流程,扩展了现有的统计问题质量标准,研究发现为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,可以防止在不当情境下的滥用,更深入地了解LLMs在问题生成中的行为倾向。
生成流程与指标
从上下文中生成问题问题的输入包括:一个段落文本作为上下文C,一个问题生成指令提示P;大模型M的输出为N个问题Q,其中每个问题都可以用上下文中的事实来回答。
不能直接使用LLM进行问题生成:问题假定读者对上下文的某个特定范围很熟悉;生成的问题可能没有标准答案;有些问题直接引用了上下文,如果没有上下文就无法回答。
所以研究人员设计了一段提示词:
You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.你需要根据以下内容中提到的事实生成[N]个自成一体的简短答案问题。避免直接引用内容的问题。每个问题都应包含所有相关的上下文,并直接提及任何被引用的项目,避免使用「它」「这款游戏」或「这个人」等代词。不要包含引用来源或上下文的短语,如「文章中提到的」或「根据文本」。将问题以有序列表的形式提供。
为了构建上下文C,研究人员将WikiText数据集分割成86万个段落,同时保留章节结构作为元数据;在过滤掉过短的段落并清理特殊字符后,通过整合段落文本并附加相关章节标题来组成上下文。
该流程类似于HotpotQA的先上下文后问题的方法,众包人员根据维基百科的多个证据段落生成问题;作为对比,TriviaQA是一个由知识竞赛爱好者编纂的问答数据集,标注人员根据问题在文章中寻找证据。
与答案无关的评估指标
问题类型对于人类来说,选择提出哪种问题是主观的,研究人员探索了在没有额外约束的情况下LLMs能够生成的问题类型,分析了十个手动定义类别的问题类型(通过观察HotpotQA、TriviaQA和论文数据集中的混合问题得到),并将其与人类的偏好进行比较。
问题长度
长度是生成问题的一个直观统计指标,研究人员主要统计单词数量;除了直接比较人类生成和LLMs生成数据集中的问题长度外,还考察了问题长度与问题类型之间的关系。
上 下文覆盖范围
一个问题可能需要跨多个句子进行推理,研究人员扩展了基于提示的句子级测量方法,还研究了单词级上下文覆盖范围;分析了在生成过程中LLMs倾向于关注上下文的哪些具体部分。
结果可以看到,问题生成并不遵循之前研究中讨论问答中的类似位置偏差。
与答案有关的评估指标
可回答性(Answerability)
问题的关键质量标准是,在给定特定知识的情况下,是否能够被精确回答,即在提供上下文时,生成的问题应该是可回答的。
研究人员提示LLMs使用给定的上下文作为输入来生成答案;由于答案的正确性也是基于相同的上下文来评估的,因此在大多数情况下,生成的问题都是可回答的。
非常见性(Uncommonness)
LLMs的预训练数据基于互联网上广泛可用的常识,即使没有明确提供上下文,LLMs仍然可能回答问题。
与可回答性评估相比,关键区别在于在答案生成过程中省略了上下文,而其他因素保持不变;结果也可以看到,去除上下文会显著降低答案质量,也表明,生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。
所需答案长度(Required answer length)
除了问题长度外,所需答案的长度也是衡量问题信息量的有效的指标。
由于生成模型的特性,生成的答案往往更长,包含更多细节;为了从带有上下文生成的答案中筛选出不必要的信息,研究人员使用了两种策略来测量答案的基本长度:1)要求模型生成的文字答案最短;2)设置生成字数限制。
结果显示,该方法可以用更少的字数实现相同的质量评级,并显著降低答案长度,第二种策略通常来说更好。
实验结果
研究人员使用两个具有代表性的大型语言模型(LLMs)进行评估:闭源的GPT-4o和开源的LLaMA-3.1-70b-Instruct,每个模型都使用相同的256个采样的维基百科上下文(N=4)生成1024个问题;大约使用了5万次聊天调用。在答案评分方面,人工标注与GPT-4o评估之间的平均皮尔逊相关系数为0.77,表明存在很强的正线性相关性。
LLMs会提什么类型的问题?
根据预定义的问题类型,研究人员将其分为三组:LLaMA和GPT模型都强烈倾向于询问具体的事实和数字,可能与训练数据的分布有关;不太容易提出的问题是根据上下文中的多个事实进行推理,与HotpotQA更相似;大模型也更倾向于询问描述类、需要详细答案的问题,这种偏好也导致了答案更长。
生成的问题有多长?
尽管整体的问题长度大致相似,约为20个单词,但不同的LLMs倾向于表现出对长度的不同偏好;人类生成的问题长度变化更大。
使用了多少上下文以及具体是哪部分?
人类生成的问题倾向于覆盖更多的上下文,无论是句子级还是单词级测量结果都是一致的。
人类生成的问题倾向于集中在上下文的开头,但LLMs生成的问题呈现出更均衡的分布,表明基于LLMs的问题生成与问答相比显示出几乎相反的位置关注焦点。
生成的问题是否可以在有/无上下文的情况下回答?
通过结合答案生成和评分,可以观察到,在有上下文的情况下,LLMs通常能生成令人满意的答案,符合预期。
当不提供上下文时,性能会下降,大约四分之一的生成问题无法得到合适的回答,GPT-4o生成的问题与人类构建的HotpotQA数据集相比,显示出更高比例的非常见问题。
回答问题需要多少信息?
LLMs生成的答案通常比人类标注的正确答案要长得多,可能是因为生成模型的特性。
为了更准确地衡量所需信息量,将LLMs生成的答案压缩,在保持评分的情况下生成最短版本。
来源:东窗史谈