智源发布“百模”评测榜单：字节跳动居语言模型主观评测榜首，OpenAI o1仅居第三

摘要：12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

北京智源人工智能研究院副院长、总工程师林咏华

出品｜

作者｜郑松毅

12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

本次评测依托于智源研究院于2023年6月上线的大模型评测平台Flageval，目前已覆盖全球800余个开闭源模型，超200万条评测题目。

以语言模型为例，主观评测重点考察模型中文能力，结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五。

发布会后，围绕AI大模型发展现状、未来趋势、及产业应用机会等问题，北京智源人工智能研究院副院长、总工程师林咏华，与等媒体围坐在一起聊了许久。

作为有着20年经验的AI行业“老兵”，林咏华从IBM中国研究院到投身于智源，她的研究重心仍是推崇开源生态，鼓励AI牌桌上的玩家从“竞争”转向“竞合”，共谋发展之道。

回头来看，从ChatGPT打响这场AI竞赛的“第一枪”算起，至今已有两年。

两年中，赛道上引领和紧跟的选手频繁换位，大语言模型也逐渐在向多模态大模型演进。从整个行业来看，当下目光所聚之处不再仅是关注技术突破，而是都在想办法做出“接地气”的AI应用。

在林咏华看来，“大语言模型经历两年的迭代已经进入成熟期。当下，或是说下一阶段的发展重点将是多模态大模型。在新一轮竞赛中，互联网大厂有流量和数据的明显优势。”

几日前，OpenAI前首席科学家伊尔亚公开发言称，“因数据资源受限，当前AI模型预训练方式即将走向终结。”

对此，林咏华持相反观点。她认为，“不是可用数据不够，而是还有很多‘数据孤岛’没有打破。Facebook、meta等平台的众多数据还没被看到，大量视频数据还没有被很好地运用。”

她判断，“2025年，构建能完成更复杂任务的AI Agent（智能体）将是热点方向。同时，会有更多基于文生图、文生视频的应用出现。”

以下为对话精编：

媒体：国内外的大模型评测榜单很多，排名情况参差不齐。您认为有必要统一一个评测标准吗？

林咏华：能统一当然是最好的，能省去很多重复性的工作。这也是包括智源在内努力的方向，但坦白说难度很大。

媒体：这类偏理论的评测结果，对产业应用指导意义大吗？

林咏华：出榜的核心意义，是在于想让所有人能看到模型的优势和不足。从机构的角度出发，是秉承严格、公正、专业的态度来评测。但出于一些局限性，的确不能断言榜单中的第一名就是最好的模型。

榜单的意义在于为用户提供参考价值，用户可以根据自家产品需求选择适合的模型使用。

媒体：从评测过程来看，有发现今年的大模型市场发生了怎样的变化吗？

林咏华：语言大模型的数量在减少，有越来越多的多模态大模型出现。

语言模型已经进入“深水区”，第一梯队的语言模型可以说已经做的很成熟了，想把水平再大幅度提高不容易。不是光拼参数和数据就能解决的，而是要依赖于更多深入创新。

反观多模态大模型，目前还处于基础能力提升阶段，有很大发展空间。此外，具身智能等新兴领域也依赖于多模态大模型，实现对物理世界的理解和推理能力。

到2025年，预计多模态大模型会层出不穷。

媒体：前几天，OpenAI前首席科学家伊尔亚提到，“因数据资源受限，现在的AI预训练方式即将走向终结”，您怎么看？

林咏华：我不同意这一观点。统计显示，Facebook、meta、推特上面的数据量是互联网上能公开搜索到的数据量的5至6倍，然而这里的很多数据还没被看到，“数据孤岛”问题还未解决。另外，还有大量的视频数据没有被很好地运用。

媒体：从发布的评测结果来看，豆包模型在几个榜单中的排名都比较靠前，是互联网大厂的模型研发能力在大幅提升吗？

林咏华：互联网大厂有两方面优势，流量和数据。

大模型需要有更多用户使用，才能起到“数据飞轮”的作用。大厂有流量，这是天然的优势。

另一方面，对文生图、文生视频来说，像字节、快手等大厂的优势在于数据。他们本身有短视频平台，积累了更多高质量数据。

媒体：在多模态大模型这一轮新竞赛中，相较于互联网大厂，像“AI六小虎”及其他初创企业的机会在哪？

林咏华：多模态模型有不同的训练方法，比如主流的是用语言基础模型加上视觉模型进行拼接。如何更好地完成拼接、预处理、后处理等工作，都是机会点。

现在来说，大多数模型训练都是基于现有模型，不需要完全从头开始，比的就是谁更有创新能力。

媒体：之前大家都在喊着追AGI（通用人工智能），而现在似乎都转头追向了应用。现在还有人在追求实现AGI吗？

林咏华：当前市场分为两派，大多数厂商觉得自家模型已经到达一定能力水平，需要尽快做出落地应用。有少部分的厂商和机构还在追求AGI的路上往前走。

坦白来说，追求AGI的成本很高，头部巨头厂商和机构做的比较多。当然，做应用尝试同样也很重要。现在更像是有分工地追求AGI。

媒体：今年很多企业在说做AI应用，但至今似乎还没有特别亮眼的产品出来。您对明年AI应用发展趋势的判断是什么？

林咏华：AI应用做的如何要看模型发展到了什么阶段。今年大多AI应用是以语言模型为基础，陆续开始发展更复杂的应用能力。

2025年，基于语言模型肯定会有更多AI Agent（智能体），能完成更复杂的任务，这是明年的热点。

来源：大力财经

标签：模型评测字节

本文地址：https://news.43u.com.cn/a/245118.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐