碾压Cursor?谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一

360影视 日韩动漫 2025-05-07 18:42 2

摘要:昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。

整理:冬梅、核子可乐

I/O 前夕,谷歌突发 Gemini 2.5 Pro 预览版

昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。

Gemini 2.5 Pro Preview(I/O 版)可通过 Gemini API 以及谷歌的 Vertex AI 与 AI Studio 平台获取,价格则与升级前的 Gemini 2.5 Pro 模型相同。预览版也被引入到谷歌的 Gemini 聊天机器人应用当中,主要供 Web 及移动设备端使用。

谷歌 DeepMind CEO Demis Hassabis 在 X 上发帖称:“非常高兴能与大家分享我们迄今为止构建的最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview 的‘I/O 版’,其编程能力得到了大幅提升。此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样拔得头筹。”

这套模型的发布正值谷歌年度 I/O 开发者大会(因此得名「I/O 版」)召开在际。预计谷歌将在大会上发布一系列模型以及 AI 驱动的工具和平台。在这场残酷的 AI 竞赛中,谷歌正奋力夺取市场份额与用户关注;OpenAI 及 xAI 等竞争对手也即将发布性能强大的同类模型。

最新版模型实际上能做些什么?

根据谷歌的介绍,Gemini 2.5 Pro Preview(I/O 版)在编码和构建交互式 Web 应用方面实现了“显著”提升。此外,新版本模型在代码转换(即修改一段代码以实现特定目标)与代码编辑等任务上同样表现出色。

谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型创建美观且功能强大的 Web 应用的能力)上名列前茅,比上一版本高出 147 个 Elo 积分。该排行榜衡量了人类对模型构建美观且功能强大的 Web 应用的能力的偏好。它还继续巩固了其在原生多模态和长上下文方面的坚实基础。

WebDev Arena 由 LMArena 开发,是一项实时 AI 编码竞赛,模型在 Web 开发挑战中展开正面交锋

视频转代码

值得一提的是,新版本模型在视频理解方面同样拥有一流表现,在热门基准测试 VideoMME 上取得 84.8% 的得分。

结合编码功能,Gemini 2.5 Pro Preview 实现了之前版本无法实现的全新流程。凭借更强大的视频理解能力和更完善的用户界面,升级后的 Gemini 2.5 Pro 模型比之前的简单示例提供了更丰富的功能体验。

谷歌在博文中写道,“对于正在使用 Gemini 2.5 Pro Preview 的开发者们来说,此次发布的新版本不仅能够提升编程性能,还将解决开发者提出的多项关键反馈,包括减少函数调用中的错误并提高函数调用的触发率。默认情况下,该模型既能保持良好的可操控性,也真正体现出对 Web 开发的审美追求。”

让功能开发更简单

Gemini 2.5 Pro Preview 在前端 Web 开发方面表现优异。实现新功能意味着用户需要手动深入设计文件,检查组件以匹配颜色、字体、内边距、外边距和边框等样式属性,然后手动编写所需的 CSS 代码来准确复制这些视觉属性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,并让模型生成新功能,例如添加一个与 Gemini 95 入门应用中其他应用风格相同的视频播放器。

让创意更易落地

Gemini 2.5 Pro Preview 让创意落地变得简单高效,它既提供强大的实用功能,又拥有优雅的用户界面。以全新升级的听写入门应用为例,该应用基于最新模型构建,充分展现了 Gemini 2.5 Pro Preview 的优势。

值得关注的是其精致的细节设计:动态波长动画、流畅的响应式布局,以及巧妙的按钮悬停交互效果。这一模型天然具备现代化的 Web 开发风格,在确保视觉美感的同时,更注重操作便捷性,帮助开发者快速将概念转化为可实际运行的 Web 应用。

例如,Gemini 2.5 Pro Preview 能够为听写应用智能设计麦克风 UI 动画,并自动生成相应代码,显著提升开发效率。

外界如何评价?

Gemini 2.5 Pro Preview 发布后立即在社区中引发热议,AI 编码工具 Cursor CEO Michael Truell‌也忍不住称赞 Gemini 2.5 Pro Preview 让编码能力更进一步。

“我们对最新的 Gemini 2.5 Pro Preview 感到非常兴奋,它在其强大的实际编程能力基础上进一步提升。我们内部观察到,新型号调用工具失败的情况显著减少,我们相信用户会发现这一改进使 2.5 Pro Preview 在 Cursor 中的效率比以前更高。”

在 Hacker News 上,有用户认为 Gemini 2.5 系列比其他模型要可靠,但仍然无法与人类开发者媲美:

“前在使用其他模型编程时,我经常遇到一个令人头疼的问题:它们有时会生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在这方面表现要好得多,比我所尝试过的任何其他模型都更可靠。

当然,它仍然存在一些明显的局限性。无论怎样优化提示词,当前的模型在抽象思维和系统架构方面还是无法与人类开发者相媲美。但即便如此,我发现 Gemini 已经能够替代我日常的很多搜索和 StackOverflow 查询,显著提升了我的编程效率。”

有用户赞同了上述观点,认为即使 Gemini 2.5 Pro Preview 在智能编码方面已经足够出色,但目前仍无法媲美人类,不过,他认为 AI 在编码能力方面超越人类只是时间问题。

“很明显,在代码设计领域,人类被超越只是时间问题(至于这是 1 年还是 5 年后的事,其实并不重要)。与其纠结于这些无法改变的趋势,不如把精力放在更有价值的问题上:在这个即将到来的新世界里,我们能做些什么? 我们需要更多建设性的想法,而这里正是推动这些讨论的最佳场所。”

一位每日都在使用大模型辅助编程的开发者表示:

“我每天都在使用大语言模型辅助编程。多年来,LLM 的编程能力确实有了显著进步,但主要集中在"自然语言到代码"的映射能力上。这种能力虽然强大,使用时仍需注意:需要精心管理上下文以保持模型专注;必须主动引导模型考虑性能优化和系统架构等关键因素。我对大模型的推理能力仍持保留态度。这并非否定其价值,而是要认识到其固有局限。我认为,要实现真正类人智能,我们可能需要探索完全不同于 LLM 的技术路径。”

但也有 X 用户认为,Gemini 2.5 Pro Preview 只有编码技能略有提高。其他一切都略有下降。因此,这只是一个专为编码而生的大模型,不适合一般用途(与之前的版本相比)。

参考链接:

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或访问进入。

牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力

AAAI 2025 关于人工智能研究未来研究报告

斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

壳牌:2025 能源安全远景报告:能源与人工智能(57 页)

盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)

Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)

IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt

联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

NAVEX Global:2024 年十大风险与合规趋势报告(42 页)

《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

2025 - 2035 年人形机器人发展趋势报告 53 页

Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt

Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)

谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习

《基于传感器的机器学习车辆分类》最新 170 页

美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)

罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)

兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

国际能源署:2025 迈向核能新时代

麦肯锡:人工智能现状,组织如何重塑自身以获取价值

威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)

牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

国际能源署(IEA):能效 2024 研究报告(127 页)

Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)

CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)

世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告

迈向推理时代:大型语言模型的长链推理研究综述

波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》

全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)

美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)

艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

华为:2025 鸿蒙生态应用开发白皮书(133 页

《超级智能战略研究报告》

中美技术差距分析报告 2025

欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)

美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)

GTI:2024 先进感知技术白皮书(36 页)

AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)

安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)

兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)

哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)

德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)

Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)

《无人机辅助的天空地一体化网络:学习算法技术综述》

谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)

《新兴技术与风险分析:太空领域与关键基础设施》最新报告

150 页!《DeepSeek 大模型生态报告》

军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

真格基金:2024 美国独角兽观察报告(56 页)

璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)

国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

模拟真实世界:多模态生成模型的统一综述

中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)

浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)

人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)

大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)

北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)

欧盟委员会 人工智能与未来工作研究报告

加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用

电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)

RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)

FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)

Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt

《21 世纪美国的主导地位:核聚变》最新报告

沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

光子盒:2025 全球量子计算产业发展展望报告(184 页)

奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

《人类与人工智能协作的科学与艺术》284 页博士论文

《论多智能体决策的复杂性:从博弈学习到部分监控》115 页

《2025 年技术展望》56 页 slides

大语言模型在多智能体自动驾驶系统中的应用:近期进展综述

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)

北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)

北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)

AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

来源:人工智能学家

相关推荐