摘要:Google近期发布的Gemini 2.5 Pro Experimental模型,以其卓越的性能和多模态处理能力,引发了业界的广泛关注。本文将详细介绍Gemini 2.5 Pro的关键特性,并通过与多个主流模型的对比实测,深入分析其在不同任务中的表现,探讨其是
Google近期发布的Gemini 2.5 Pro Experimental模型,以其卓越的性能和多模态处理能力,引发了业界的广泛关注。本文将详细介绍Gemini 2.5 Pro的关键特性,并通过与多个主流模型的对比实测,深入分析其在不同任务中的表现,探讨其是否真的能够成为“地表最强”的AI模型。
Google发布 Gemini 2.5 Pro Experimental
文章结构:
先介绍Gemini 2.5 Pro发布内容和基准评测。然后介绍笔者的多个模型实际对比测评。
发布内容要点超越所有模型重夺第一,在多个领域标准评估中取得SOTA成绩一个全新的Thinking Model(思考型模型)大幅提升逻辑推理、编码生成、复杂任务处理能力支持 100万 tokens 上下文(未来将支持200 万)在 Humanity’s Last Exam(测试 AI 在人类高阶知识推理的能力)中,Gemini 2.5创下 18.8% 得分,为无工具模型中全球最强。在 LMArena 上,获得当前 人类偏好最高分这个是重点!多模态原生支持(非外挂),原生支持:文本,图片(含图表、草图、照片),视频(含字幕、动作识别、语义理解),音频(如语音合成/识别),代码(整 repo 分析)。统一架构共享注意力机制,实现图-文-音-码同源协同处理。评测数据基准测试
知识推理&科学&数据表现
测试题目
这个是不同大模型的一个测评图表,首先解读不同数据集的含义和作用。另外,对整个的测评结果,以deepseek v3-0324版本为基准进行解读分析
选择依据
图文结合的多模态数据输入更考验模型
输入数据的图标有一定的数据和对比,可以考验模型识别、理解、推理等能力,一个题目综合性评测
评测对象
几乎主流的模型都参与的评测,包括但不限grok3,O3 mini,deepseek R1等
评测结论
只有Gemini 2.5Pro可以完全理解输入的图文结合数据,并按照要求进行知识解答,图标数据的正确分析对比。意外插曲是输出内容为英文。
评测结果
Gemini 2.5 pro
回答完整、详细、准确。可以作为图标类内容分析、学习的模版参考。
部分原图,下面文字是完整输出
原文翻译内容
好的,让我们来分析一下这个条形图,它比较了不同的大型语言模型。
第一部分:理解数据集(基准测试)
这些数据集用于评估大型语言模型在不同领域的功能,主要集中在知识、推理、数学和编程方面。
1. MMLU-Pro(EM):
• 含义: MMLU代表大规模多任务语言理解。这是一个广泛的基准测试,旨在衡量模型在训练过程中获得的知识,涵盖57个不同学科,如人文学科、社会科学、STEM等。“Pro”可能表示这是原始MMLU的一个更具挑战性或更精细的版本,可能包含更难的问题或更严格的评估。
• 指标(EM): 完全匹配。这意味着模型的答案必须与正确答案字符串完全一致,才能算作正确答案。这是一个非常严格的标准。
• 目的: 评估模型的世界知识的广度和深度,以及其准确应用这些知识的能力。
2. GPQA Diamond(Pass@1):
• 含义: GPQA代表研究生级谷歌证明问答。这个基准测试包含由领域专家(生物学、物理学、化学)编写的难题,仅靠在线搜索很难回答正确(因此称为“谷歌证明”)。“Diamond”可能指GPQA的一个特定子集,很可能是更具挑战性的部分。
• 指标(Pass@1): 这是编程和数学中常见的指标,表示模型生成的第一个解决方案正确的百分比。
• 目的: 评估在需要理解复杂概念而非简单信息检索的专家级问题上的深度推理和解决问题的能力。
3. MATH-500(Pass@1):
• 含义: 这指的是MATH数据集,包含具有挑战性的竞赛数学问题(例如来自AMC 10、AMC 12、AIME级别)。“500”可能指一个特定子集或版本,可能表示500个问题。
• 指标(Pass@1): 同上,模型生成的第一个解决方案正确的百分比。
• 目的: 特别衡量数学推理、符号操作和解决问题的能力。
4. AIME 2024(Pass@1):
• 含义: AIME代表美国数学邀请赛,这是美国的一项高中数学竞赛。“2024”表示这些问题是来自2024年的最新竞赛。
• 指标(Pass@1): 模型生成的第一个解决方案正确的百分比。
• 目的: 测试在最新、具有挑战性的竞赛级问题上的高级数学解决问题能力,这些问题是模型在训练数据中不太可能见过的。
5. LiveCodeBench(Pass@1):
• 含义: 这是一个用于评估代码生成能力的基准测试。“Live”可能表示它使用来自最近编程竞赛的问题,或者会频繁更新,以防止训练数据的污染。
• 指标(Pass@1): 模型生成的第一个代码解决方案通过隐藏测试用例的百分比。
• 目的: 评估模型理解编程问题描述并生成正确、功能代码的能力。
第二部分:结果分析(基准:DeepSeek-V3-0324)
我们将分析这些基准测试的表现,比较DeepSeek-V3-0324(深蓝色条纹柱)与其他模型:DeepSeek-V3(浅蓝色)、Qwen-Max(中蓝色)、GPT-4.5(深灰色)和Claude-Sonnet-3.7(浅灰色)。(模型理解得很正确)
总体表现:
DeepSeek-V3-0324在所有评估的基准测试中表现始终处于或接近顶尖水平。与之前的DeepSeek-V3版本相比,它在所有类别中都有显著提升。
MMLU-Pro(广泛知识):
DeepSeek-V3-0324得分为81.2%。这个成绩优于DeepSeek-V3(75.9%)、Qwen-Max(76.1%)和Claude-Sonnet-3.7(80.7%)。它略逊于GPT-4.5(86.1%)。解读: DeepSeek-V3-0324具有非常强大的一般知识,与Claude-Sonnet-3.7竞争激烈,并且超过了Qwen-Max,尽管在这一特定评估中仍然落后于GPT-4.5。GPQA Diamond(专家推理):
DeepSeek-V3-0324得分为68.4%。这个成绩明显优于DeepSeek-V3(59.1%)和Qwen-Max(60.1%)。它与Claude-Sonnet-3.7(68.0%)非常接近,并且略低于GPT-4.5(71.4%)。解读:它在困难的专家级问题上表现出强大的推理能力,表现与Claude-Sonnet-3.7基本相当,并且与GPT-4.5竞争激烈。MATH-500(标准数学):
DeepSeek-V3-0324得分为94.0%。这是所有模型中的最高分,超过了GPT-4.5(90.7%)、DeepSeek-V3(90.2%)、Qwen-Max(82.6%)和Claude-Sonnet-3.7(82.2%)。解读: DeepSeek-V3-0324在这个标准的具有挑战性的数学基准测试中表现出最先进的性能(在这个组别中),表明其具有出色的数学推理能力。AIME 2024(高级最新数学):
DeepSeek-V3-0324得分为59.4%。这个成绩明显高于所有其他模型:DeepSeek-V3(39.6%)、GPT-4.5(36.7%)、Qwen-Max(26.7%)和Claude-Sonnet-3.7(23.3%)。解读:这是一个突出的结果。DeepSeek-V3-0324在非常困难且最新的数学问题上表现出色,显著优于强大的竞争对手GPT-4.5和Claude-Sonnet-3.7。这表明它在这一特定任务上可能具有更优越的数学训练或架构优势。LiveCodeBench(编程):
DeepSeek-V3-0324得分为49.2%。这是最高分,领先于GPT-4.5(44.4%)、Claude-Sonnet-3.7(42.2%)、DeepSeek-V3(39.2%)和Qwen-Max(38.7%)。解读:DeepSeek-V3-0324在这个基准测试中表现出最强的编程能力,表明其在生成正确代码解决方案方面具有熟练的能力。总结结论:
根据这个图表,DeepSeek-V3-0324是一款能力非常强的大型语言模型。它比其前身(DeepSeek-V3)有显著的进步。在数学(MATH-500、AIME 2024)和编程(LiveCodeBench)方面,它取得了最先进的结果(在比较的模型中),在具有挑战性的AIME 2024基准测试中尤其领先。尽管在广泛知识的MMLU-Pro基准测试中略逊于GPT-4.5,但它在一般知识和复杂推理(GPQA)方面仍然具有很强的竞争力,通常超过或与Claude-Sonnet-3.7和Qwen-Max相当。它的优势在数学和编程等技术领域表现得尤为明显。(总结很到位)
grok3
输出数据出现错乱(张冠李戴),但整体内容逻辑结构是可以的。
具体内容如下:
回答用户查询
用户提供了一张不同大型语言模型的测评图表,要求首先解读各个数据集的含义和作用,然后以 DeepSeek-V3-0324 为基准对测评结果进行分析。以下是完整的回答:
一、数据集的含义与作用解读
该图表评估了五个大型语言模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7)在五个数据集上的性能。以下是对每个数据集的含义和作用的解读:
MMLU-Pro (EM)
含义: 这可能是 Massive Multitask Language Understanding(MMLU)基准测试的一个变体,“Pro” 表示更高级或专业化的版本。“EM” 代表 Exact Match(精确匹配),即模型输出必须与正确答案完全一致才算正确。
作用: 该数据集测试模型在多个领域(如科学、人文、社会科学等)的通用知识和推理能力,评估其是否能准确回答广泛的学术性问题。
GPOA Diamond (Pass@1)
含义: GPOA Diamond 可能是 General Purpose Question Answering(通用问答)数据集的一个子集,“Diamond” 表示高难度或高质量的筛选部分。“Pass@1” 表示评估模型第一次尝试(即 top-1 预测)的正确性。
作用: 该数据集测试模型在首次尝试中回答复杂通用问题的能力,侧重于深入理解和推理能力。
MATH-500 (Pass@1)
含义: 该数据集包含 500 个数学问题,可能涵盖高中或大学水平的数学内容。“Pass@1” 表示评估模型第一次尝试解题的正确性。
作用: 它评估模型的数学推理和问题解决能力,包括计算、定理应用和逻辑推导。
AIME 2024 (Pass@1)
含义: AIME 是 American Invitational Mathematics Examination(美国数学邀请赛)的缩写,面向高中生的数学竞赛,包含具有挑战性的问题。“2024” 表示该数据集来自 2024 年,“Pass@1” 表示评估第一次尝试的正确性。
作用: 该数据集测试模型解决高级数学问题的能力,通常需要创造性和分析性思维,超出普通教材范围。
LiveCodeBench (Pass@1)
含义: 该数据集可能聚焦于编程和代码生成任务,模型需为给定问题生成正确代码。“Pass@1” 表示评估第一次提交代码的正确性。
作用: 它评估模型的编程技能,包括理解问题规格、编写功能性代码以及处理逻辑错误的能力。
二、以 DeepSeek-V3-0324 为基准的测评结果分析
DeepSeek-V3-0324(图表中以深蓝色带斜线表示)作为基准模型,其性能数据如下。我们将逐一分析每个数据集,并与其他模型进行比较:
1. MMLU-Pro (EM)
DeepSeek-V3-0324: 81.2%
DeepSeek-V3: 75.9%(比基准低 5.3%)
Qwen-Max: 76.1%(比基准低 5.1%)
GPT-4.5: 86.1%(比基准高 4.9%)
Claude-Sonnet-3.7: 80.7%(比基准低 0.5%)
分析: DeepSeek-V3-0324 在此数据集上表现良好,但 GPT-4.5 以 86.1% 领先,显示其在通用知识和推理方面更强。Claude-Sonnet-3.7 与基准非常接近(仅低 0.5%),而 DeepSeek-V3 和 Qwen-Max 稍逊一筹。
2. GPOA Diamond (Pass@1)
DeepSeek-V3-0324: 59.1%
DeepSeek-V3: 68.4%(比基准高 9.3%)
Qwen-Max: 50.1%(比基准低 9.0%)
GPT-4.5: 71.4%(比基准高 12.3%)
Claude-Sonnet-3.7: 68.0%(比基准高 8.9%)
分析: DeepSeek-V3-0324 在此数据集上的表现较弱(59.1%),被大多数模型超越。GPT-4.5 以 71.4% 居首,DeepSeek-V3 和 Claude-Sonnet-3.7 表现相近且优于基准。Qwen-Max 表现最差,表明其处理复杂通用问题能力不足。
3. MATH-500 (Pass@1)
DeepSeek-V3-0324: 94.0%
DeepSeek-V3: 90.2%(比基准低 3.8%)
Qwen-Max: 82.6%(比基准低 11.4%)
GPT-4.5: 90.7%(比基准低 3.3%)
Claude-Sonnet-3.7: 82.2%(比基准低 11.8%)
分析: DeepSeek-V3-0324 以 94.0% 的高准确率领先,展现出卓越的数学解题能力。GPT-4.5 和 DeepSeek-V3 接近但稍逊一筹,而 Qwen-Max 和 Claude-Sonnet-3.7 表现明显较差,数学推理能力较弱。
4. AIME 2024 (Pass@1)
DeepSeek-V3-0324: 59.4%
DeepSeek-V3: 39.6%(比基准低 19.8%)
Qwen-Max: 26.7%(比基准低 32.7%)
GPT-4.5: 36.7%(比基准低 22.7%)
Claude-Sonnet-3.7: 23.3%(比基准低 36.1%)
分析: DeepSeek-V3-0324 在此高难度数学数据集上以 59.4% 遥遥领先,显著优于其他模型。DeepSeek-V3 和 GPT-4.5 位列其次,但差距较大。Qwen-Max 和 Claude-Sonnet-3.7 表现最差,显示其在高级数学问题上的局限性。
5. LiveCodeBench (Pass@1)
DeepSeek-V3-0324: 49.2%
DeepSeek-V3: 39.2%(比基准低 10.0%)
Qwen-Max: 44.4%(比基准低 4.8%)
GPT-4.5: 38.7%(比基准低 10.5%)
Claude-Sonnet-3.7: 42.2%(比基准低 7.0%)
分析: DeepSeek-V3-0324 以 49.2% 领先编程任务,尽管准确率不算很高。Qwen-Max 和 Claude-Sonnet-3.7 稍逊一筹,DeepSeek-V3 和 GPT-4.5 表现最差,表明其编程能力较弱。
三、总体分析
DeepSeek-V3-0324 的优势与劣势
优势:
在数学任务(MATH-500 和 AIME 2024)上表现突出,分别达到 94.0% 和 59.4%,远超其他模型。
在编程任务(LiveCodeBench)上以 49.2% 领先,显示出较强的代码生成能力。
在 MMLU-Pro 上获得 81.2%,表现稳健但并非最佳。
劣势:
在 GPOA Diamond 上仅得 59.1%,落后于大多数模型,表明其在处理复杂通用问答时存在局限性。
与其他模型的比较
DeepSeek-V3: 除 GPOA Diamond(68.4%)优于基准外,其余数据集均表现不如 DeepSeek-V3-0324,尤其在 AIME 2024 上差距明显(低 19.8%)。
Qwen-Max: 在所有数据集上均低于 DeepSeek-V3-0324,尤其在 AIME 2024 上表现极差(仅 26.7%),整体性能较弱。
GPT-4.5: 在 MMLU-Pro(86.1%)和 GPOA Diamond(71.4%)上超越基准,但在数学和编程任务上落后,尤其在 AIME 2024 上低 22.7%。
Claude-Sonnet-3.7: 在 MMLU-Pro(80.7%)和 GPOA Diamond(68.0%)上与基准接近或稍优,但在数学任务(MATH-500 和 AIME 2024)上差距显著(低 11.8% 和 36.1%)。
总结
DeepSeek-V3-0324 在数学和编程任务上表现出色,是这些领域的佼佼者,但在通用问答能力(GPOA Diamond)上仍有提升空间。相比其他模型,它在数学领域的优势尤为突出,适合需要强大数学推理和代码生成能力的场景。如果您有进一步的问题或需要更深入的分析,请随时告诉我!
O3mini
基础内容解答质量还可以,进行图表数据分析,有较多与事实不符或错乱情况
下面的回答分为两部分:
1.先解读图表中出现的不同数据集(MMLU-Pro、GPOA Diamond、MATH-500、AIME 2024、LiveCodeBench)的含义和作用
2.然后对比这些数据集上的结果,并以 DeepSeek V3-0324 的表现为基准进行分析
2. 以 DeepSeek V3-0324 为基准的测评结果分析
图中展示了多款大模型(DeepSeek-V3、DeepSeek-V3-0324、Qwen-Max、GPT-4.5、Claude-Sonnet-3.7)在以上 5 个数据集上的表现(一般以“Pass@1”或准确率/百分位数为指标)。下面根据图表大致数值进行简要解读(数值仅根据题主提供的可视化柱状图近似读取):
(A)整体表现概览
DeepSeek V3-0324相比上一版本DeepSeek V3,在所有数据集上都有不同程度的提升。
各模型在不同数据集上各有侧重和优势:
在MMLU-Pro这类多领域知识评测中,Qwen-Max 表现最好,其次是 DeepSeek V3-0324;GPT-4.5、Claude-Sonnet-3.7 也都在同一水平段。(回答错误,这个评测Qwen-Max表现不好的)在数学类(MATH-500、AIME 2024)评测中,GPT-4.5 往往具备较强的数学推理能力;不过 DeepSeek V3-0324 与之非常接近,甚至在 AIME 2024 上略有领先。(回答错误,与图标事实不符)在LiveCodeBench这类编程测评中,DeepSeek V3-0324 的分数(约 49.2%)高于 Qwen-Max、GPT-4.5、Claude-Sonnet-3.7,显示出不错的代码生成和一次性通过能力。(B)以 DeepSeek V3-0324 为基准的具体对比
1.MMLU-Pro
DeepSeek V3:73.5% →DeepSeek V3-0324:81.2%Qwen-Max:86.1%,GPT-4.5:80.3%,Claude-Sonnet-3.7:78.9%(回答错误,与图标事实不符)对比来看,V3-0324 较上一版本进步显著,且超过 GPT-4.5、Claude-Sonnet-3.7,虽然略低于 Qwen-Max,但整体已在高水准区间。
后面还有很多错误就不一一标注,大家可以慢慢看
2.GPOA Diamond
DeepSeek V3:68.4% →DeepSeek V3-0324:70.1%Qwen-Max:75.3%,GPT-4.5:68.1%,Claude-Sonnet-3.7:70.9%该数据集上,V3-0324 相比 V3 提升相对有限,但依然超过了 GPT-4.5。与 Qwen-Max、Claude-Sonnet-3.7 则还在同一梯队,分数相当接近。
3.MATH-500
DeepSeek V3:88.0% →DeepSeek V3-0324:91.0%GPT-4.5:92.0%,Qwen-Max:90.7%,Claude-Sonnet-3.7:90.2%在纯数学推理题上,GPT-4.5 以微弱优势领先,但 V3-0324 也已达 91.0%,非常接近 GPT-4.5;对比其他模型,也处于相对领先地位。
4.AIME 2024
DeepSeek V3:50.9% →DeepSeek V3-0324:52.4%Qwen-Max:49.2%,GPT-4.5:48.2%,Claude-Sonnet-3.7:49.7%这一竞赛级难度更高的数学评测中,V3-0324 甚至超越了 Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7,显示了在高难度数学推理和创造性解题上的增强。
5.LiveCodeBench
DeepSeek V3:44.2% →DeepSeek V3-0324:49.2%Qwen-Max:44.4%,GPT-4.5:42.0%,Claude-Sonnet-3.7:41.2%在一次性代码生成(Pass@1)上,V3-0324 同样取得了领先。对比上一版本有明显提升,也高于其他主流模型,说明其在编程任务上的准确性有所加强。
3. 小结
数据集意义:
MMLU-Pro 测试多学科专业知识;GPOA Diamond 可能更偏开放式或高难度语言理解;MATH-500、AIME 2024 都是高难度数学推理和竞赛级题目;LiveCodeBench 则是编程能力的测试。
DeepSeek V3-0324 的表现亮点:
相比 DeepSeek V3,全方位都有所提升。在多领域综合知识(MMLU-Pro)和编程(LiveCodeBench)方面,成绩非常突出,部分项目甚至超越 GPT-4.5 和 Claude-Sonnet-3.7。在高阶数学(AIME 2024)中,也体现出强劲的竞赛级推理能力。与其他模型对比:
Qwen-Max 在 MMLU-Pro 这类多领域知识上依然保持领先,GPT-4.5 在 MATH-500 等数学题中略有优势,但 DeepSeek V3-0324 与之差距较小。在 AIME 2024、LiveCodeBench 等更专精的场景中,DeepSeek V3-0324 取得了更高的分数。总的来说,这份评测图表显示 DeepSeek V3-0324 在多项任务上已经具备了与主流大模型分庭抗礼的能力,尤其在专业知识覆盖、竞赛级数学推理和代码生成方面有了进一步提升。
其他模型解读结果较差,就不一一展示
结论从评测结果和官网发布内容综合可知,原生多模态模型在理解数据文字和结构信息等方面有着明显的优势,应该也是2025年模型发展的趋势。上面图表对外挂视觉模型很多时候,是无法提取图片的数字信息,以及把数据与柱状图进行正确匹配的。
本文由 @帅森森 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
来源:人人都是产品经理