谷歌AI突然登顶,震惊全球

360影视 欧美动漫 2025-05-08 14:57 2

摘要:近日,谷歌提前放出了全新升级的Gemini 2.5 Pro Preview(I/O版),新模型一举拿下三连冠,登顶LMeana。

谷歌AI拿下三连冠

科技巨头谷歌突然开大,在AI领域掀起了滔天巨浪。

近日,谷歌提前放出了全新升级的Gemini 2.5 Pro Preview(I/O版),新模型一举拿下三连冠,登顶LMeana。

同时,它也成为首个横扫文本、视觉、WebDev Arena基准的SOTA模型。

进一步说,这也是自2022年底ChatGPT引爆生成式AI热潮以来,谷歌首次在关键的代码生成评估指标上全面领先,击败所有竞争对手。

图源:Google

此次发布的版本是今年3月发布的多模态大语言模型Gemini 2.5 Pro的重大升级版。

谷歌在表示,本来计划在谷歌I/O上发布这个更新,但看到大家对这款模型的热情高涨,所以决定提前放出,让所有人能尽早开发使用。

目前,该模型已向Google AI Studio的独立开发者、Vertex AI云平台的企业用户以及Gemini应用的普通用户开放。

同时,谷歌表示,其并未调整模型定价或速率限制:目前使用Gemini 2.5 Pro的用户将自动切换至新模型,价格仍为每百万输入token收费1.25美元,每百万输出token收费10美元,最多支持20万token的上下文窗口。

相较于Claude 3.7 Sonnet的15美元,很显然谷歌模型更具价格优势。并且,企业用户还可通过Canvas工具实现低代码开发流程。

图源:Google

公开数据表明,谷歌新模型得分为1499.95,远高于Sonnet 3.7的1377.10,编码性能碾压Claude 3.7 Sonnet。

图源:微博

此前,旧版本的Gemini 2.5 Pro(03-25)得分为1278.96,排名位列第三。当然,这也意味着新版本实现了221分的大幅跃升。

同时,DeepMind CEO德米斯·哈萨比斯也表示,“非常高兴能与大家分享我们有史以来构建的最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview I/O 版,编程能力得到了大幅提升。此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样领先。

图源:微博

可以说,头把交椅的易主,尽显谷歌的实力与野心。

新模型的三大亮点解读

当然,从谷歌公布的各项初步基准测试结果来看,外界对新模型的盛誉也并非夸大其词。那么,我们来聊一聊有哪些让人眼前一亮的提升。

首先,Gemini 2.5 Pro Preview(I/O版)重点突破在于:只需通过一条提示即可构建完整、可交互的网页应用或模拟程序。

对此,谷歌表示,用户可以输入视觉模式或主题性提示,将其直接转化为可运行的代码,这显著降低了设计导向型开发者或创新团队的入门门槛。

图源:Google

换句话说,作为普通用户,即便没有编程基础,也能通过Gemini 2.5 Pro Preview(I/O版)快速构建复杂应用。

例如,用户只需用自然语言描述需求,或上传一张手绘草图,Gemini 2.5 Pro I/O版就能自动识别草图布局并生成响应式代码,若用户绘制了一个麦克风图标,系统不仅会生成录音按钮,还会配套动态波形动画和暂停逻辑,最后自动生成功能完备的Web应用。

图源:微博

同时,用户添加新功能时,模型能继承现有项目的视觉风格,避免“拼贴感”,例如在已有React项目中新增组件时,CSS类名和动画曲线会自动对齐。

对此功能,AI艺术工具EverArt首席执行官彼得罗·斯基拉诺测试后直接表示,新版Gemini 2.5 Pro I/O能够通过一个提示就生成互动模拟游戏,完美还原了“1只大猩猩大战100人”的社交媒体梗。

图源:微博

同时,Hyperbolic联合创始人兼CTO Yuchen Jin也写道:“Gemini 2.5 Pro Preview(05-06)现已成为我的首选编程模型。在多个高难度提示词测试中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以编写模拟水桶来回晃动的水体效果这个提示为例,其表现完全碾压另外两个模型。谷歌,这完全够格称为Gemini 3了!

图源:微博

此外,某位X用户“RameshR”(@rezmeram)也测试并展示了该模型在不到一分钟内生成的一款互动式俄罗斯方块风格拼图游戏,并配有真实音效,他在帖文中写道:“休闲游戏行业要完蛋了!”

除了单条文本提示便能生成完整应用这一亮点以外,Gemini 2.5 Pro I/O版还将视频理解能力推向新高度。

图源:微博

凭借在VideoMME等基准测试中高达84.8%的SOTA视频理解能力,Gemini 2.5 Pro能够将视频内容直接转化为交互式学习应用,为教育、产品演示等领域开辟了新途径。

在前端开发流程中,Gemini 2.5 Pro致力于智能化“设计稿到代码”的过程。它能更好地理解设计风格,自动生成匹配的CSS代码,例如在现有应用风格基础上添加新功能时,能自动匹配整体视觉设计,从而简化开发。

此外,模型在快速将概念转化为兼具功能与美感的应用方面也展现出潜力。

例如,在谷歌DeepMind研究员Ali Eslami发布的另一个演示中,用Gemini 2.5 Pro“氛围编程”功能进行了芝加哥艺术学院收藏品的3D导览。

图源:微博

最后,针对企业级开发的痛点,Gemini 2.5 Pro I/O版还展现出了优越的代码维护能力。

一方面,其支持跨框架迁移,如React转Vue,能够自动更新依赖项并修复兼容性问题。例如,有团队将10万行代码库从Angular迁移到Next.js,错误率仅0.3%。

另一方面,针对长期困扰开发者的“AI幻觉”问题,新一代模型通过强化学习机制将API调用错误率压到了40%。例如,其在支付功能开发场景中,系统会智能规避虚构接口陷阱,直接调用Stripe等经过验证的官方SDK,减少代码坑害。

进一步说,Gemini 2.5 Pro I/O版更令人惊艳的是其注释优化能力,可以自动生成符合JSDoc规范的注释,并支持一键过滤冗余说明,使得技术审查效率提升三倍以上。

综上,Gemini 2.5 Pro I/O版的更新,实现了简单提示词生成代码、图片和视频转化为交互式网页。

也就是说,AI已经不仅仅是为用户生成答案的搜索引擎,甚至可以直接充当主体的角色,进行创作、数据分析、编程等,因此,直接弱化了工具与创造者的界限。

尽管在抽象思维层面尚未突破人类天花板,但其在具体场景中展现的效能已足够颠覆传统开发流程。

对于普通用户而言,个体不再需要掌握编程语言,只需想象力和清晰的目的,就可以借助AI进行内容创作,全民AI的蓝图无疑更加清晰。

同时,效率的提升必然会从个人应用场景蔓延至团队工作场景,再影响企业的战略规划,最终形成社会化的生产力要素来进行价值释放。

这也意味着,这次更新,不仅是科技巨头谷歌像外界展示大招,更意味着,人类在使用AI工具时的角色进一步转变。

不过,对此也有网友变现出部分负面看法,认为这将严重挤压平庸人在社会经济中的劳动附加值,也就是说,未来面对替代危机的,可能不仅仅是依赖简单重复性劳动的群体

或许,Gemini 2.5 Pro的霸榜或许只是序章,随着科技巨头的持续迭代,一个由AI驱动、人机共创的软件工程新时代正在加速到来,让我们拭目以待。

作者 | 宋辉

来源:科技头版

相关推荐