基于语言的指令调优提升了多模态大型语言模型的零样本泛化性能

摘要：MLAN带来了一种全新的指令调优方案，旨在增强多模态大型语言模型的零样本任务泛化能力。和那些极度依赖视觉指令的现有指令调优机制不同，MLAN的办法聚焦于基于语言的指令调优，为多模态指令调优开辟了一条独特且训练效率更高的途径。MLAN在语言和视觉这两种模态的 9

《MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models》

地址：[2411.10557] MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Modelsopen searchopen navigation menucontact arXivsubscribe to arXiv mailings

MLAN带来了一种全新的指令调优方案，旨在增强多模态大型语言模型的零样本任务泛化能力。和那些极度依赖视觉指令的现有指令调优机制不同，MLAN的办法聚焦于基于语言的指令调优，为多模态指令调优开辟了一条独特且训练效率更高的途径。MLAN在语言和视觉这两种模态的 9 个未曾见过的数据集上对所提方法的性能进行了评估。结果显示，MLAN仅依靠语言的指令调优能够大幅提升基于 Llama 2 和 Vicuna 的两个预训练多模态模型在这些未见过的数据集上的表现。有趣的是，遵循语言指令的能力还能帮助模型在未经明确训练的情况下遵循视觉指令。相较于主要基于视觉指令的先进多模态指令调优方法，MLAN基于语言的方法不但性能出色，还显著提升了训练效率。

研究问题: 这篇文章旨在解决多模态大型语言模型（MLLM）在零样本任务上的泛化能力不足的问题。现有的指令调优机制主要依赖于视觉指令，而本文提出的方法则专注于基于语言的指令调优，旨在提供一种更为训练高效的多模态指令调优路径。研究难点: 该问题的研究难点在于如何在不依赖大量视觉数据的情况下，通过语言指令调优来提升模型的泛化能力，并且保持训练的高效性。相关工作: 相关工作包括语言指令调优和视觉指令调优的研究。前者主要集中在通过语言指令提升大语言模型的泛化能力，而后者则依赖于视觉数据和预训练的多模态模型来实现视觉指令的跟随。

这篇论文提出了MLAN（Language-Based Instruction Tuning），一种基于语言的指令调优方法，用于解决多模态大型语言模型在零样本任务上的泛化问题。具体来说，

训练任务选择: 选择了5个语言数据集和2个视觉-语言数据集进行训练。每个数据集都被转换为指令跟随格式，并采样用于预训练模型的指令调优。训练细节: 使用LLaVA架构连接视觉编码器和投影器，使得大型语言模型能够处理图像输入。预训练后，使用语言数据集对模型进行一个epoch的微调，采用全局批量大小为64，余弦学习调度，学习率为2e-5，预热比例为0.03，不使用权重衰减。指令调优: 通过完全基于语言数据集的样本对两个MLLM检查点进行微调，以测试指令调优方法。语言数据仍然是与MLLM交互的主要媒介，但少量视觉-语言数据的暴露有助于克服分布偏移并提高鲁棒性。