Gemini 2.0霸榜,价格卷哭DeepSeek V3,性价比新王诞生!

360影视 2025-02-07 14:20 2

摘要:在 Deepseek、Qwen 和 o3 的围追堵截下,今天凌晨,谷歌一口气连发了三款模型:Gemini 2.0 Pro、Gemini 2.0 Flash ,Gemini 2.0 Flash-Lite:

大数据文摘受权转载自夕小瑶科技说

谷歌 Gemini 2.0 家族终于凑齐了!出手即霸榜。

在 Deepseek、Qwen 和 o3 的围追堵截下,今天凌晨,谷歌一口气连发了三款模型:Gemini 2.0 Pro、Gemini 2.0 Flash ,Gemini 2.0 Flash-Lite:

在大模型 LMSYS 排行上,Gemini 2.0-Pro 冲到了第一名,Gemini-2.0 家族都挺进了前 10。

这次发布的 Gemini 2.0 三个模型性能上都有各自的亮点!

Gemini 2.0 Pro (Experimental)

作为 Gemini 系列的旗舰模型,Pro 版本代表了当前 Google 最先进的 AI 能力,尤其在编码和推理方面表现出类拔萃的性能:

超大上下文窗口:支持高达2M tokens 的上下文处理能力

工具集成能力强大:深度整合 Google 搜索与代码执行功能

可用性说明:已在 Google AI Studio、Vertex AI 以及 Gemini Advanced 平台以实验版本形式上线

Gemini 2.0 Flash

这款模型定位为“高效主力模型”,设计上侧重于速度与性能的平衡,旨在为需要低延迟响应的应用场景提供理想支持:

百万级上下文窗口:支持 1M tokens 上下文

优秀的多模态推理能力:擅长处理多模态数据,目前支持多模态输入和单模态文本输入

未来功能拓展:图像生成与文本转语音功能即将推出

可用性说明:已在 Vertex AI Studio 和 Google AI Studio 平台正式发布,可通过 Gemini API 接入。

Gemini 2.0 Flash-Lite (Preview)

作为“最具成本效益”的模型,Flash-Lite 在速度、成本和性能之间实现了最佳平衡点。

高性价比优势:与 1.5 Flash 相同速度和成本的前提下,多数基准测试中超越 1.5 Flash。

百万级上下文窗口:同样支持 1M tokens 上下文处理能力。

根据谷歌放出来的性能评估对比可以看出,Gemini 2.0 Pro Experimental 版本在几乎所有基准测试中都取得了最高分,表现出色:

尤其是在代码生成任务(如 LiveCodeBench v5)和复杂数学问题(如代数、几何和微积分)上的表现尤为出色。此外,在复杂的长文档理解测试中,成绩也显著提升。

从 API 性价比看,谷歌也是良心大厂。

Gemini 2.0 Flash 的百万 Token 输入一块钱都不到。。。。支持多模态,支持联网搜索,更牛的是,前无古人的上下文窗口。

作为对比的 Deepseek V3, 目前的价格是百万输入 1 块钱,R1 推理是 4 块钱。

ps:不过还是要感谢 DeepSeek 把价格打下来,能打下来价格的就是家人 hhh

这真的太便宜了!相比性能,我觉得 Gemini 被忽略的是价格!

case 表现

既然号称和 Deepseek 一样能打,我们肯定要看看实际 case 表现咋样,看看各路网友们的测试整活儿吧 ~

基于物理引擎的弹球游戏

先看看这个爆火的 case,使用物理引擎模拟逼真的碰撞、摩擦、重力等效果。

提示词:编写一个 Python 程序,显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹

这是 Deepseek R1 和 o3-min 的表现:

Gemini 2.0 Pro Experimental 生成的版本:

文如老狗!和 o3 mini 不相上下。

Gemini 2.0 Flash:

呃,翻车了。

Gemini 2.0 Flash-Lite :

一上来就翻。

难度加倍!让小球变成 100 个小球!

提示词:为球体内 100 个弹跳的亮黄色球编写脚本,确保正确处理碰撞检测。使球体缓慢旋转。确保球保持在球体内。在 p5.js 中实施

嗯!不错呀!球体缓慢旋转很流畅,模拟物理规律也很优秀,100 个小球也在“各司其职”地稳稳碰撞 ~

再来一个:

编写一个 p5.js 脚本,模拟在一个圆柱形容器的真空空间中反弹的 25 个粒子。每个球使用不同的颜色,并确保它们留下轨迹来显示它们的运动。添加容器的缓慢旋转,以便更好地观察场景中发生的事情。确保创建适当的碰撞检测和物理规则,以确保粒子保持在容器内。添加一个外部球形容器。为整个场景添加一个缓慢的放大和缩小效果。

绕不过去的草莓考题

还有聪明(狡猾)的网友又甩出了经典的草莓考题:

How many r's are there in strawberry

但是!结果非常令人意外,Gemini 2.0 Pro Experimental 竟然答错了!

而 Gemini 2.0 Flash Thinking Experimental 却答对了:

谷歌大佬 Jeff Dean 亲自下场测试编程能力

Google DeepMind 和 Google Research 的首席科学家 Jeff Dean 还测试了一波 Gemini 2.0 Pro 的编程能力:

让模型完成经典的 Boggle 游戏,第一次生成的代码就完成了在 “字母方块” 的游戏中找到所有有效的单词:

而且,Jeff Dean 说这个代码完成的耗时只有 18.9 秒,速度非常快。

谷歌 DeepMind CEO 对这次模型的大更新信心满满,称这次发布的工作是为谷歌实现未来的未来智能体工作奠定了基础:

Google CEO 桑达尔·皮查伊之前明确表示,2025 年将是谷歌在 AI 领域加速发展的关键时期。感觉这次发布后,谷歌的路线更加清晰了!

相较于其他巨头的路线,谷歌的 AI 路线 更注重实用,直接提供多版本选择,就像 一个 AI 工具箱,任你挑选,按需选择,灵活方便,各种需求都能满足 ~

家人们用上新模型了吗?欢迎评论区和我们一起讨论 ~

参考文献

https://developers.googleblog.com/en/gemini-2-family-expands/?linkId=12807127

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

来源:大数据文摘

相关推荐