【MLLM数据合成全攻略】多模态大模型数据合成6大方案详细拆解MMEvol → STaR → Dyn-VQA → LLaVAR → Florence-2 → InternVL 2.5一、MMEvol一个新颖的多模态指令数据演化框架。 该框架通过细粒度感知、认知推理和交互演化的精细组合迭代地提高数据质量,从而赋予 MLLMs 更强的能力。1. 指令演化:随机选择细粒度感知演化、认知推理演化或交互演化之一。2. 指令消除:为了解决演化指令中偶尔出现的错误,我们使用指令消除来过滤掉失败的演化。 二、STaRSTaR旨在解决如何提高语言模型在复杂推理任务上的性能,例如数学问题解答或常识问答。STaR算法的原理是通过迭代地利用少量推理示例(rationales)和大量没有推理的大数据集,来引导模型逐步提升执行更复杂推理的能力。STaR算法的核心是一个简单的循环过程。 三、Dyn-VQA为了评估多模态RAG技术在动态场景中的表现,阿里团队创建了一个全新的数据集—Dyn-VQA。该数据集包含三种类型的问题:1. 快速变化的答案:如“某位明星最新的电影是什么?”,需要实时更新的知识。2. 需要多模态知识的问题:如“这个球队的标志是什么物体?”,需要结合图像和文本信息。3. 多跳推理问题:如“这两位演员谁的票房更高?”,需要分步推理并结合多来源信息。 四、LLaVAR基于LLAVA的文档理解多模态大模型,VQA指令数据构建方法:1. 收集422K噪声指令跟踪数据:通过结合手动编写的指令和OCR结果。这种大规模的噪声对齐数据有效地改善了视觉特征和语言解码器之间的特征对齐。2. 我们将OCR结果和图像caption输入GPT-4,生成16K个对话,每个对话都可以多轮问答配对,作为示例后的高质量教学。 五、Florence-2Florence-2模型:一种新颖的开源视觉语言模型(VLM),旨在处理各种视觉和多模型任务,包括字幕识别、对象检测、分割和OCR等内容。1) 使用专业模型进行初始标注2) 数据过滤,纠正错误并移除无关标注3) 迭代式的数据优化过程 六、InternVL 2.5InternVL 2.5,一种先进的大规模多模态大模型系列,基于InternVL 2.0的基础架构。1. 基于LLM的质量评分2. 重复检测:使用LLM结合特定提示识别重复样本。3. 启发式规则过滤:应用特定规则,如过滤掉异常长度的句子。#算法 #大厂 #面经 #大模型面试 #大厂算法 #秋招 #互联网大厂 #字节跳动 #算法实习 #大模型学习摘要:多模态大模型数据合成6大方案详细拆解MMEvol → STaR → Dyn-VQA → LLaVAR → Florence-2 → InternVL 2.5一、MMEvol一个新颖的多模态指令数据演化框架。 该框架通过细粒度感知、认知推理和交互演化的精细组合迭
来源:勇帅说事