国产开源多模态先锋,InternVL2.5 已上线 Serverless API

360影视 2025-01-02 16:32 2

摘要:12 月初,上海人工智能实验室(上海AI实验室)开源了多模态大模型书生·万象2.5(InternVL2.5)。相较于今年7月发布的版本(InternVL2),书生·万象2.5在多个方面取得了突破:

InternVL2.5-26B及InternVL2-8B现均已上线 Serverless API,访问 Gitee AI 即可免费在线体验:https://ai.gitee.com/serverless-api#vision-language

12 月初,上海人工智能实验室(上海AI实验室)开源了多模态大模型书生·万象2.5(InternVL2.5)。相较于今年7月发布的版本(InternVL2),书生·万象2.5在多个方面取得了突破:

实现全量级开源多模态性能第一,开源参数涵盖10亿~780亿;在多模态长链推理方面,在专家级多学科领域知识推理基准测试MMMU中取得突破70%的成绩(仅次于目前最高分的OpenAI o1);通用能力显著加强,在跨学科推理、文档理解、多图像/视频理解、现实世界推理、多模态幻觉检测、视觉定位、多语言等能力方面均有不同程度的提升,维持在世界领先水平;纯语言能力完全保持,在不牺牲语言能力的情况下实现优异的多模态性能。

通过在训练、测试策略和数据质量等方面不断取得新突破,书生·万象2.5将提供性能更强、效率更高的多模态基座模型,进而为相关学术研究和产业应用做出贡献。

在 OpenCompass 榜单上,书生·万象2.5(InternVL2.5)在10亿~780亿量级多模态大模型中展示出强大的多模态能力,可与闭源模型相媲美,MMMU 性能突破70%,为了继OpenAI-o1后第二个 MMMU 性能突破70%的模型

MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark) 是一个旨在评估多模态模型在大规模多学科任务上的表现的基准。MMMU 包含了来自大学考试、测验和教科书的11.5K个精心收集的多模态问题,涵盖6个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题涵盖了30个学科和183个子领域,包含了30种不同的图像类型。

InternVL 2.5保留了与其前身InternVL 1.5和2.0相同的模型架构,遵循ViT-MLP- LLM范式。在这个新版本中使用了随机初始化的 MLP 投影仪将新增量预训练的 InternViT 与各种预训练的LLMs (包括 InternLM 2.5 和 Qwen 2.5)集成。

以下是解答一道 MMMU 原题的例子,可以看到书生·万象2.5(InternVL2.5)能理解并运用统计学的一些基本概念,正确计算出类似难度的计算推理题。

接下来这道题需要模型能理解并计算复杂公式,能够正确跟随指令,根据要求回答出正确的答案,可以看到书生·万象2.5也能正确解答出来。

在阅读明代状元试卷的案例中,书生·万象2.5不仅能够识别繁体字、正确阅读古文,还能够正确加上标点符号并将古文翻译成现代文。从多轮对话中,还可以看到书生·万象2.5能够很好地根据用户的指令执行对应的行动。

最后是一个很常见的使用案例,要求将手写笔记的知识导图转成特定格式的文档。可以看到书生·万象2.5能够出色地完成这个任务,将整个知识框架按照格式整理好,并且将公式解析正确。

InternVL2.5-26B及InternVL2-8B现均已上线 Serverless API,以极低的成本享受行业领先的视觉语言模型,访问 Gitee AI 即可免费在线体验:https://ai.gitee.com/serverless-api#vision-language

无需复杂的部署和环境准备,只需一行访问令牌即可轻松调用InternVL2.5-26B的 API,帮助开发者的 AI 应用上线快人一步!

Serverless API 目前已包含文本生成、视觉模型、图像生成与处理、自动语音识别、语音合成、特征抽取、代码生成七大类共 37 款各领域的顶尖开源模型。同时,Gitee AI 也上线了模型资源包,通过极低的价格即可尽享众多主流模型。

来源:码云Gitee

相关推荐