智源发布“百模”评测榜单:字节跳动居语言模型主观评测榜首,OpenAI o1仅居第三

摘要:12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

北京智源人工智能研究院副院长、总工程师林咏华

出品|

作者|郑松毅

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

本次评测依托于智源研究院于2023年6月上线的大模型评测平台Flageval,目前已覆盖全球800余个开闭源模型,超200万条评测题目。

以语言模型为例,主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。

发布会后,围绕AI大模型发展现状、未来趋势、及产业应用机会等问题,北京智源人工智能研究院副院长、总工程师林咏华,与等媒体围坐在一起聊了许久。

作为有着20年经验的AI行业“老兵”,林咏华从IBM中国研究院到投身于智源,她的研究重心仍是推崇开源生态,鼓励AI牌桌上的玩家从“竞争”转向“竞合”,共谋发展之道。

回头来看,从ChatGPT打响这场AI竞赛的“第一枪”算起,至今已有两年。

两年中,赛道上引领和紧跟的选手频繁换位,大语言模型也逐渐在向多模态大模型演进。从整个行业来看,当下目光所聚之处不再仅是关注技术突破,而是都在想办法做出“接地气”的AI应用。

在林咏华看来,“大语言模型经历两年的迭代已经进入成熟期。当下,或是说下一阶段的发展重点将是多模态大模型。在新一轮竞赛中,互联网大厂有流量和数据的明显优势。”

几日前,OpenAI前首席科学家伊尔亚公开发言称,“因数据资源受限,当前AI模型预训练方式即将走向终结。”

对此,林咏华持相反观点。她认为,“不是可用数据不够,而是还有很多‘数据孤岛’没有打破。Facebook、meta等平台的众多数据还没被看到,大量视频数据还没有被很好地运用。”

她判断,“2025年,构建能完成更复杂任务的AI Agent(智能体)将是热点方向。同时,会有更多基于文生图、文生视频的应用出现。”

以下为对话精编:

媒体:国内外的大模型评测榜单很多,排名情况参差不齐。您认为有必要统一一个评测标准吗?

林咏华:能统一当然是最好的,能省去很多重复性的工作。这也是包括智源在内努力的方向,但坦白说难度很大。

媒体:这类偏理论的评测结果,对产业应用指导意义大吗?

林咏华:出榜的核心意义,是在于想让所有人能看到模型的优势和不足。从机构的角度出发,是秉承严格、公正、专业的态度来评测。但出于一些局限性,的确不能断言榜单中的第一名就是最好的模型。

榜单的意义在于为用户提供参考价值,用户可以根据自家产品需求选择适合的模型使用。

媒体:从评测过程来看,有发现今年的大模型市场发生了怎样的变化吗?

林咏华:语言大模型的数量在减少,有越来越多的多模态大模型出现。

语言模型已经进入“深水区”,第一梯队的语言模型可以说已经做的很成熟了,想把水平再大幅度提高不容易。不是光拼参数和数据就能解决的,而是要依赖于更多深入创新。

反观多模态大模型,目前还处于基础能力提升阶段,有很大发展空间。此外,具身智能等新兴领域也依赖于多模态大模型,实现对物理世界的理解和推理能力。

到2025年,预计多模态大模型会层出不穷。

媒体:前几天,OpenAI前首席科学家伊尔亚提到,“因数据资源受限,现在的AI预训练方式即将走向终结”,您怎么看?

林咏华:我不同意这一观点。统计显示,Facebook、meta、推特上面的数据量是互联网上能公开搜索到的数据量的5至6倍,然而这里的很多数据还没被看到,“数据孤岛”问题还未解决。另外,还有大量的视频数据没有被很好地运用。

媒体:从发布的评测结果来看,豆包模型在几个榜单中的排名都比较靠前,是互联网大厂的模型研发能力在大幅提升吗?

林咏华:互联网大厂有两方面优势,流量和数据。

大模型需要有更多用户使用,才能起到“数据飞轮”的作用。大厂有流量,这是天然的优势。

另一方面,对文生图、文生视频来说,像字节、快手等大厂的优势在于数据。他们本身有短视频平台,积累了更多高质量数据。

媒体:在多模态大模型这一轮新竞赛中,相较于互联网大厂,像“AI六小虎”及其他初创企业的机会在哪?

林咏华:多模态模型有不同的训练方法,比如主流的是用语言基础模型加上视觉模型进行拼接。如何更好地完成拼接、预处理、后处理等工作,都是机会点。

现在来说,大多数模型训练都是基于现有模型,不需要完全从头开始,比的就是谁更有创新能力。

媒体:之前大家都在喊着追AGI(通用人工智能),而现在似乎都转头追向了应用。现在还有人在追求实现AGI吗?

林咏华:当前市场分为两派,大多数厂商觉得自家模型已经到达一定能力水平,需要尽快做出落地应用。有少部分的厂商和机构还在追求AGI的路上往前走。

坦白来说,追求AGI的成本很高,头部巨头厂商和机构做的比较多。当然,做应用尝试同样也很重要。现在更像是有分工地追求AGI。

媒体:今年很多企业在说做AI应用,但至今似乎还没有特别亮眼的产品出来。您对明年AI应用发展趋势的判断是什么?

林咏华:AI应用做的如何要看模型发展到了什么阶段。今年大多AI应用是以语言模型为基础,陆续开始发展更复杂的应用能力。

2025年,基于语言模型肯定会有更多AI Agent(智能体),能完成更复杂的任务,这是明年的热点。

来源:大力财经

相关推荐