智源发布“百模”评测结果，国内大模型仍存这些短板

摘要：在语言模型测评中，针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是在复杂的场景任务中，国内头部语言模型仍然与国际一流水平存在显著差距。

12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型评测结果。

在语言模型测评中，针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是在复杂的场景任务中，国内头部语言模型仍然与国际一流水平存在显著差距。

语言模型主观评测重点考察模型中文能力，测评结果显示，字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在语言模型的客观评测中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

一句话就能生成流畅精致的视频，Sora带头掀起的文生视频模型热潮在近一年来颇为引人瞩目。根据智源的评测，文生视频多模态模型在过去一年画质进一步提升，动态性更强，镜头语言更丰富，专场更流畅，但仍然普遍存在大幅度动作变形、无法理解物理规律等问题，例如视频中有些物体会突然消失、闪现、相互穿透等。评测结果显示，快手可灵1.5（高品质）、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列文生视频模型的前五名。

在文生图方面，此次测评发现，在今年上半年，参评的模型普遍无法生成正确的中文文字，但此次参评的头部模型已经具备中文文字生成能力。不过，文生图模型仍普遍存在复杂场景人物变形的情况，难以胜任涉及常识或知识性的推理任务。例如，无法处理大于3的数量关系，在涉及中国文化和古诗词理解的场景中表现不佳等。评测结果显示，文生图模型中，腾讯Hunyuan Image位列第一，字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三，OpenAI DALL·E 3、快手可图次之。

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval，经过数次迭代，目前已覆盖全球800多个开闭源模型，包含20多种任务，90多个评测数据集，超200万条评测题目，评测方法与工具由智源研究院联合全国10余家高校和机构合作共建。

记者：孙奇茹

来源：子清视界

标签：模型评测文生

本文地址：https://news.43u.com.cn/a/242990.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!