flageval

AI打辩论、搞金融到底行不行?智源发布FlagEval“百模”评测结果揭晓大模型能力现状

“年轻人应不应该相信玄学”?“孙悟空和功夫熊猫哪个更适合成为队友”?2024年12月19日,在智源研究院(下称“智源”)的秋冬评测发布会上,上演了一场大模型与大模型的辩论赛。参与辩论赛的大模型不仅会引经据典,甚至会像人类辩手一样依据对手上一轮的辩词来反击对方。

模型 评测 flageval 2024-12-22 12:09  5

智源发布FlagEval「百模」评测结果,丈量模型生态变局

相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方

模型 评测 flageval 2024-12-20 15:12  5

智源公布FlagEval“百模”评测结果

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,

评测 魏蔚 flageval 2024-12-19 23:00  5

智源发布FlagEval“百模”评测结果,丈量模型生态变局

相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,

模型 评测 flageval 2024-12-19 19:53  4

100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果

2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。语言模型主观评测重点考察模型中文能力,结果显示字节跳动Douba

模型 评测 flageval 2024-12-19 17:49  5

智源发布FlagEval“百模”评测结果 丈量模型生态变局

相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,

模型 评测 flageval 2024-12-19 17:25  4