国产开源多模态先锋，InternVL2.5 已上线 Serverless API

摘要：12 月初，上海人工智能实验室（上海AI实验室）开源了多模态大模型书生·万象2.5（InternVL2.5）。相较于今年7月发布的版本（InternVL2），书生·万象2.5在多个方面取得了突破：

InternVL2.5-26B及InternVL2-8B现均已上线 Serverless API，访问 Gitee AI 即可免费在线体验：https://ai.gitee.com/serverless-api#vision-language

12 月初，上海人工智能实验室（上海AI实验室）开源了多模态大模型书生·万象2.5（InternVL2.5）。相较于今年7月发布的版本（InternVL2），书生·万象2.5在多个方面取得了突破：

实现全量级开源多模态性能第一，开源参数涵盖10亿~780亿；在多模态长链推理方面，在专家级多学科领域知识推理基准测试MMMU中取得突破70%的成绩（仅次于目前最高分的OpenAI o1）；通用能力显著加强，在跨学科推理、文档理解、多图像/视频理解、现实世界推理、多模态幻觉检测、视觉定位、多语言等能力方面均有不同程度的提升，维持在世界领先水平；纯语言能力完全保持，在不牺牲语言能力的情况下实现优异的多模态性能。

通过在训练、测试策略和数据质量等方面不断取得新突破，书生·万象2.5将提供性能更强、效率更高的多模态基座模型，进而为相关学术研究和产业应用做出贡献。

在 OpenCompass 榜单上，书生·万象2.5（InternVL2.5）在10亿～780亿量级多模态大模型中展示出强大的多模态能力，可与闭源模型相媲美，MMMU 性能突破70%，为了继OpenAI-o1后第二个 MMMU 性能突破70%的模型。

MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark) 是一个旨在评估多模态模型在大规模多学科任务上的表现的基准。MMMU 包含了来自大学考试、测验和教科书的11.5K个精心收集的多模态问题，涵盖6个核心学科：艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题涵盖了30个学科和183个子领域，包含了30种不同的图像类型。

InternVL 2.5保留了与其前身InternVL 1.5和2.0相同的模型架构，遵循ViT-MLP- LLM范式。在这个新版本中使用了随机初始化的 MLP 投影仪将新增量预训练的 InternViT 与各种预训练的LLMs （包括 InternLM 2.5 和 Qwen 2.5）集成。