从卷transformer到拼idea,多模态大模型一路也是卷的飞起,最终发现大道至简才是真香,今天聊聊几种常见的多模态模型,具体可以看第二张图 1⃣️CLIP核心思想:文本和图像在特征域对齐架构:文本编码器(BERT) + 图像编码器(ViT) +特征匹配(cosine sim)训练目标:info-nce-loss对比学习数据:4亿图文对大规模训练 2⃣️BLIP核心思想:图文理解和生成的模型,三任务联合学习架构:混合编解码器,单模态编码器(ViT+ BERT)、多模态编码器(Cross-Attention)、多模态解码器训练目标:—ITC loss:图文对比学习(理解)—ITM loss:图文匹配分类(理解)—LM loss:自回归文本生成(生成)数据:COCO、Visual Genome、网络数据集等 3⃣️BLIP2核心思想:利用预训练模型提升效果降低成本架构:冻结的Image Encoder(ViT等)+ Q-Former桥接模块(Image Transformer和Text Transformer) + 冻结的LLM训练目标:对比学习(ITC)、文本生成(ITG)、图文匹配(ITM)数据:继承BLIP清洗后的数据集,并通过CapFilt方法合成高质量图文描述 4⃣️InstructBLIP核心思想:引入指令输入动态调整视觉特征提取策略架构:在BLIP2基础上,将指令同时输入Q-Former和LLM训练目标:以语言建模损失(LM Loss)为主导数据:26个数据集(13个微调,13个评估) 5⃣️LLaVA核心思想:使用GPT-4生成高质量指令数据(对话/描述/推理)架构:视觉编码器(CLIP ViT-L) + 线性投影层 + LLM数据:158K指令样本(对话、描述、推理)特点:指令微调多模态范式 6⃣️mini-GPT4核心思想:轻量化连接视觉编码器与LLM架构:视觉编码器(ViT+Q-Former) + 投影层 + LLM(Vicuna)训练目标:语言建模损失(仅训练投影层)数据:5M图文对 + 3500高质量样本 真正的技术突破性创新,其核心价值不在于盲目追求系统复杂性,而是在于探索和寻找到更为高效、简洁的表达方式[再见]~ #AI #大模型 #面试 #实习 #算法工程师 #多模态 #LLM摘要:从卷transformer到拼idea,多模态大模型一路也是卷的飞起,最终发现大道至简才是真香,今天聊聊几种常见的多模态模型,具体可以看第二张图 1⃣️CLIP核心思想:文本和图像在特征域对齐架构:文本编码器(BERT) + 图像编码器(ViT) +特征匹配(
来源:营口口偶雨