智源发布“百模”评测结果,国内大模型仍存这些短板

360影视 2024-12-20 14:14 4

摘要:在语言模型测评中,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是在复杂的场景任务中,国内头部语言模型仍然与国际一流水平存在显著差距。

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型评测结果。

在语言模型测评中,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是在复杂的场景任务中,国内头部语言模型仍然与国际一流水平存在显著差距。

语言模型主观评测重点考察模型中文能力,测评结果显示,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型的客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

一句话就能生成流畅精致的视频,Sora带头掀起的文生视频模型热潮在近一年来颇为引人瞩目。根据智源的评测,文生视频多模态模型在过去一年画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但仍然普遍存在大幅度动作变形、无法理解物理规律等问题,例如视频中有些物体会突然消失、闪现、相互穿透等。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列文生视频模型的前五名。

在文生图方面,此次测评发现,在今年上半年,参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力。不过,文生图模型仍普遍存在复杂场景人物变形的情况,难以胜任涉及常识或知识性的推理任务。例如,无法处理大于3的数量关系,在涉及中国文化和古诗词理解的场景中表现不佳等。评测结果显示,文生图模型中,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目,评测方法与工具由智源研究院联合全国10余家高校和机构合作共建。

记者:孙奇茹

来源:子清视界

相关推荐