智源公布FlagEval“百模”评测结果

摘要：12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval，经过数次迭代，目前已覆盖全球800多个开闭源模型，

北京商报讯（记者魏蔚）12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval，经过数次迭代，目前已覆盖全球800多个开闭源模型，包含20多种任务，90多个评测数据集，超200万条评测题目。

在评测方法与工具上，智源研究院联合全国10余家高校和机构合作共建，探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM，并构建面向大模型新能力的有挑战的评测集，包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等，其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集，有18000多个轮次对话，和14万多个回答。

以语言模型为例，评测重点考察模型中文能力，结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在语言模型客观评测中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

来源：北京商报

标签：评测魏蔚 flageval

本文地址：https://news.43u.com.cn/a/237929.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!