摘要:在人工智能和机器人领域,让机器理解人类的自然语言指令一直是一个巨大挑战。想象一下,你对家里的厨房机器人说:"帮我把蛋糕放在盘子上。"如果厨房里有多个盘子,机器人应该如何选择?它应该主动询问你想用哪个盘子,还是自己做决定?这种情况就是我们所说的"指令歧义"问题。
2025年6月,莫斯科物理技术学院(MIPT)和人工智能研究所(AIRI)的研究团队,包括Anastasiia Ivanova、Eva Bakaeva、Zoya Volovikova、Alexey K. Kovalev和Aleksandr I. Panov,在arXiv上发表了一篇题为"AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment"的研究论文(arXiv:2506.04089v1),专门解决这一问题。这项研究为大型语言模型(LLM)在理解模糊指令方面的能力评估提供了一个全新的标准。
近年来,大型语言模型(如GPT系列、Llama等)已经展现出了优秀的指令理解能力,可以帮助机器人规划完成各种任务。然而,当我们的指令不够明确时,这些模型往往会遇到困难。比如,当我们说"把水烧开"时,机器人应该用水壶还是微波炉?当我们说"切点水果"时,应该切哪些水果?应该切多大的块?这些看似简单的问题,对于人类来说可能很容易通过常识或经验来解决,但对于机器人来说却可能变成严重的障碍。
虽然已经有一些研究团队开发了询问用户反馈的方法,但这些方法通常针对的是问答任务,而不是实体代理(即具有物理形态的机器人)所面临的特殊挑战。实体代理与纯虚拟的聊天机器人相比,需要在物理世界中运作,考虑安全性、物体意识和交互适应性等因素。
为了推动这一领域的研究,我们需要专门的数据集来评估和比较不同的方法。虽然已经存在一些包含歧义任务的数据集,如DialFred和TEACh,但它们缺乏专门支持歧义检测研究的充分注释。而KnowNo数据集虽然是纯文本的,但其中的歧义任务只占很小一部分(170个样本),且没有提供解决歧义的问题或提示。
因此,MIPT和AIRI的研究团队创建了AmbiK(Ambiguous Tasks in Kitchen Environment),这是一个完全基于文本的英语数据集,专门用于检测和处理厨房环境中的歧义指令。AmbiK包含1000对任务(共2000个任务),每对包含一个歧义指令和一个无歧义的对应版本,以及环境描述、澄清问题和答案、用户意图和任务计划。
AmbiK的独特之处在于它根据解决歧义所需的知识类型将歧义任务分为三类:
首先是"偏好类"(Human Preferences),这类歧义涉及用户的个人偏好,例如"请把牛奶倒入杯子里",当环境中有多个杯子时,机器人需要询问用户想要使用哪个杯子。对于这类歧义,一个优秀的模型应该总是询问用户,因为人类的偏好是变化多端且不可预测的。
其次是"常识知识类"(Common Sense Knowledge),这类歧义需要常识知识来解决,例如"请烤面包",机器人需要知道烤面包通常使用烤面包机而不是烤箱或微波炉。对于这类歧义,模型应该限制其提问频率,只在真正必要时才询问。
第三类是"安全类"(Safety),涉及安全规则的知识,例如"请加热水牛城鸡翅",机器人需要知道应该使用微波安全的盘子。与常识知识类似,模型应该只在必要时询问,但由于安全问题的严重性,询问明显的安全问题比询问常识问题更可接受。
研究团队对AmbiK数据集进行了详细的统计分析,发现其中42%的任务对属于偏好类,42.5%属于常识知识类,15.5%属于安全类。AmbiK的任务在语言上非常丰富多样,非重复词汇占比较低,表明任务复杂度高。平均来说,无歧义任务包含26.21个单词,而歧义任务包含21.23个单词。
为了创建这个数据集,研究团队首先手动创建了一个包含750多种厨房物品和食物的列表,按照物品相似性分组。然后随机抽样构建了1000个厨房环境,每个环境从2-5个食物组和2-5个厨房物品组中抽取至少3个物品。基础厨房设备如冰箱、烤箱、厨房桌子、微波炉、洗碗机、水槽和茶壶在每个环境中都存在。然后,研究团队使用Mistral模型生成无歧义任务,并使用ChatGPT为每个无歧义任务生成对应的歧义版本以及问答对。最后,团队根据专门创建的注释指南对所有答案进行人工审核,三位团队成员的注释一致性超过95%。
为了验证AmbiK数据集的实用性,研究团队对三种基于混淆预测(Conformal Prediction, CP)的方法(KnowNo、LAP和LofreeCP)和两种基准方法(Binary和No Help)进行了评估。实验在四种LLM上进行:GPT-3.5、GPT-4、Llama-2-7B和Llama-3-8B。
结果显示,所有测试的方法在AmbiK上表现都不佳,表明AmbiK确实提出了严峻的挑战。No Help方法表现最差,仅依赖模型的最高置信度预测是不够的。没有任何方法的集合大小正确率(SSC)达到20%,表明CP集合与实际歧义集合不一致。此外,大多数情况下,机器人要么从不请求帮助,要么总是请求帮助,表明它们无法有效处理歧义。令人惊讶的是,简单的Binary方法在大多数情况下产生的预测集比基于CP的方法更准确。
研究团队还发现,不依赖模型内部信息的方法(Binary和LofreeCP)表现优于基于logit的方法,这支持了之前的观察,即模型logit通常校准不良并导致性能下降。此外,大多数方法很少触发人类干预,这可能是因为模型(特别是GPT)给予最高置信度选项的分数远高于其他选项,导致CP集合通常只包含一个选项。
研究团队进一步验证了将相同的方法应用于KnowNo数据集的表现。结果表明,所有方法在KnowNo上的表现都优于在更复杂的AmbiK上的表现,这证实了创建更具挑战性的基准的必要性。
此外,研究团队还比较了向LLM提供完整计划上下文与仅提供单一操作的效果。结果表明,提供先前操作可能对基于CP的方法有益,可能是因为LLM获得了更多上下文。
总的来说,AmbiK数据集提供了一个全新的、高质量的标准,用于评估大型语言模型在处理厨房环境中歧义指令的能力。尽管最先进的方法在AmbiK上面临挑战,但这正是推动研究进步的机会。通过AmbiK,研究人员可以更好地理解模型的局限性,并开发更强大的方法来处理实际应用中的歧义情况。未来的研究可以探索更多的家庭任务和环境,使数据集更加多样化,同时也可以考虑文化和语言的变异性。
这项研究的数据集和所有实验代码都已在GitHub上公开发布(https://github.com/cog-model/AmbiK-dataset),欢迎感兴趣的研究者进一步探索和使用。
来源:至顶网一点号