摘要:谷歌 DeepMind 又放出了大招——历时一年半钻研的 AlphaEvolve 终于亮相了。这个由 Gemini 驱动的 AI 智能体,简直就是个会自我进化的“解题机器”。
编译|核子可乐、冬梅
昨晚,科技圈又炸锅了!
谷歌 DeepMind 又放出了大招——历时一年半钻研的 AlphaEvolve 终于亮相了。这个由 Gemini 驱动的 AI 智能体,简直就是个会自我进化的“解题机器”。
项目地址:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
简单来说,它就像个超级学霸:将谷歌 Gemini 解决创造性问题的能力和能验证答案的自动评估器相结合,然后用进化框架来优化最有潜力的想法。
这项成就已经被《Nature》刊登,它的厉害之处在于刚出道就破了数学界 53 年纪录:用 48 步计算搞定 4x4 复数矩阵乘法(相当于把祖传的“珠算口诀”给优化了)。
它不只会算矩阵——几何题、数独谜、质数猜想...50 多个数学领域的未解难题也都不在话下。
但 DeepMind 团队的说法很实在:“这 AI 不是来替代数学家的,是来当助手的。” 也就是说,DeepMind 将它定位为一款“Agent”,毕竟它最擅长的就是把人类要花几个月验证的想法,压缩到几小时里试错迭代。
值得注意的是,华裔数学家、菲尔兹奖得主陶哲轩也参与了该项目,他在社交平台发文称,
“我(与 Javier Gomez-Serrano 一起)正与谷歌 DeepMind 的一个团队合作,探索其工具 “AlphaEvolve”(其早期工具 “Funsearch” 的后续产品,该工具于今日公开宣布)在数学领域的潜在应用。大致来说,这是一种能够尝试对函数 F (x) 进行极值化的工具,其中 x 取值于高维参数空间 Ω。当参数空间维度极高且函数 F(及其极值点)具有非明显结构特征时,该工具的表现可能优于更传统的优化算法。
我们已尝试将该工具应用于一些初步问题,包括涉及调和分析不等式、加性组合学和堆积问题的相关内容,这些在公告中已有提及;我们现在正逐步转向更具挑战性的问题,这类问题的参数空间中优质解的集合更为稀疏。这项工作仍在进行中,但我希望在接近完成时(可能在几个月后)能够汇报更多进展。”
业内怎么看?
目前,AlphaEvolve 已被部署在谷歌数据中心、芯片设计以及 AI 训练系统当中,在提升效率的同时,也解决了不少困扰研究人员几十年的数学难题。
谷歌 DeepMind 研究员 Matej Balog 在接受采访时解释道,“AlphaEvolve 是一款由 Gemini 驱动的 AI 编码智能体,能够在计算和数学领域取得新发现。它可以提出极其复杂的算法——往往超过数百行代码,且复杂的逻辑结构远非平常函数可以比肩。”
该系统通过演进整体代码库、而非特定函数,极大扩展了谷歌此前在 FunSearch 项目上的成果。它代表着 AI 在开发复杂算法以应对科学挑战和日常计算问题方面,再次实现了重大飞跃。
AlphaEvolve 的发布迅速引发热议。
在 X 平台上,AI 初创创始人 Justin Halford 惊叹 AlphaEvolve 超人编码能力,并称编程将在 10 年内迎来它的 AlphaGo 时刻。
也有人认为,这就是未来学习思考的方式,人工智能不仅仅是解决问题,它正在解锁智力的维度。
AI 创企 Rediminds 公司也发文对 AlphaEvolve 表示祝贺,并认为 AlphaEvolve 的出现标志着一种范式转变:
“人工智能不仅应用算法,更能创造算法。通过将 LLM 驱动的提案生成与自动化、严格的评估循环相融合,它已经提供了新的矩阵乘法例程,并在数十个开放数学问题上超越了人工设计的解决方案。”
计算效率提升 0.7%:
AI 创造算法接管运行公司数据中心
AlphaEvolve 在谷歌内部默默运转了一年有余,且成果已经十分显著。
它发现的一种算法正在驱动谷歌的大规模集群管理系统 Borg。这种启发式调度算法平均可释放谷歌全球基础设施中 0.7% 的计算资源——以搜索巨头的规模而言,这样的效率提升可谓相当惊人。
这项成果针对的是所谓“搁浅资源”——即那些某种资源已被耗尽(如内存)、但其余资源类型仍有剩余(如 CPU)的可用设备。AlphaEvolve 提出的解决方案之所以极其价值,是因为它能够生成简单易读的代码,以供工程师们轻松解释、调试和部署。
这款 AI 智能体的应用范围远不止于数据中心。它还重写了谷歌部分硬件设计,找到新方法来消除张量处理单元(TPU)关键运算电路中不必要的比特位。TPU 设计人员验证了这一改进并确认可行,其将被应用于后续推出的芯片设计当中。
更令人印象深刻的是,AlphaEvolve 还改进了驱动其自身的系统。它优化了用于训练 Gemini 模型的矩阵乘法内核,将该运算的速度提升了 23%、借此将整体训练时间缩短了 1%。对于在少量计算网格上训练的 AI 系统来说,这样的效率提升足以实现可观的电力与资源节约效果。
另一位 DeepMind 研究员 Alexander Novikov 在采访时表示,“我们努力寻找能够加速并尽可能发挥重要作用的关键部件。我们得以将一个重要内核的实际运行速度优化了 23%,意味着将整个 Gemini 训练卡的端到端性能节约下 1%。”
打破 Strassen 保持 56 年的
矩阵简洁记录
AlphaEvolve 解决了困扰人类专家几十年的数学难题,同时推动了现有系统的进步。
该系统设计了一种基于梯度的新颖优化程序,进而发现了多种新的矩阵乘法算法。其中一项发现,直接打破了一项保持了 56 年的数学记录。
Balog 在谈到 DeepMind 之前的专用矩阵乘法系统时表示,“说实话,最让人惊讶的是虽然 AlphaEvolve 其实是一项更强调通用性的技术,但它的结果甚至比 AlphaTensor 还要好。对于这些 4 x 4 矩阵,AlphaEvolve 首次找到一种超越 Strassen 1969 年算法的新解法。”
这项突破使得两个 4 x 4 复值矩阵相乘只需要 48 次标量乘法,优于此前的 49 次——自 Volker Strassen 当初发表的里程碑成果以来,数学家们一直未能突破这个难题。根据研究论文,AlphaEvolve 共“改进了 14 种矩阵乘法算法的最优解”。
该系统的数学应用范围远远超出了矩阵简洁。在针对数学分析、几何学、组合学及数论领域 50 多个未解决问题进行测试时,AlphaEvolve 在约 75% 的案例中给出了与最先进解法相媲美的结果。而在约 20% 的案例中,它的答案甚至比已知最佳解法还要先进。
“接吻数问题”也取得了重大突破——这是一个有着数百年历史的几何学挑战,旨在确定有多少个不重叠的单位球体能够同时接触一个中心球体。在 11 维空间上,AlphaEvolve 发现了包含 593 个球体的配置方式,打破了之前 592 个球体的记录。
怎么做到的?
AlphaEvolve 与其他 AI 编码系统的最大区别,在于其采用的进化方法。
该系统同时部署有 Gemini Flash(以提升速度)和 Gemini Pro(以提升深度),借此对现有代码提出修改建议。这些修改会由自动评估器进行测试,并针对每个变化进行评分。最成功的算法将引导下一轮进化。
AlphaEvolve 不仅仅是根据训练数据生成代码。它还会主动探索解法空间,发现新颖方法,并通过自动评估流程对其进行改进,最终创造出人类可能从未想到过的解法。
Novikov 解释道,“我们方法中的一个关键理念,在于专注具有明确评估方式的问题。对于任何提出的解法或代码片段,我们都可以自动验证其有效性并衡量方法质量。如此一来,我们就能建立起快速可靠的反馈循环来改进整个系统。”
这种方法之所以极具价值,是因为该系统可以处理一切具有明确评估指标的问题——既包括数据中心的能源效率,也涉及优雅的数学证明。
DeepMind 表示,在实验中,AlphaEvolve 系统可以帮助优化谷歌用于训练其 AI 模型的部分基础设施。他们正在构建一个用于与 AlphaEvolve 交互的用户界面,并计划在可能进行更广泛推广之前,先为选定的学者推出一个早期访问计划。
大多数人工智能模型都会产生幻觉。由于其概率架构,它们有时会自信地编造一些事情。事实上,像 OpenAI 的 o3 这样的较新的人工智能模型比它们的前几代产品更容易产生幻觉,这说明了这个问题的挑战性。
AlphaEvolve 引入了一种巧妙的机制来减少幻觉:自动评估系统。该系统使用模型生成、评估并得出一个问题的可能答案池,并自动评估和评分答案的准确性。
DeepMind 实验室表示,其 AlphaEvolve 系统旨在供领域专家使用
谷歌算法驱动型 AI 的下一步发展方向
AlphaEvolve 目前被部署在谷歌的基础设施与数学研究当中,但其潜力远不止于此。谷歌 DeepMind 设想将其应用于材料科学、药物研发以及其他需要复杂运算解法的领域。
Novikov 强调该系统的协作潜力时指出,“最佳人机协作有助于解决开放的科学挑战,并将成果应用在谷歌规模的庞大业务体系当中。”
谷歌 DeepMind 目前正与其“人机协同”研究团队合作开发用户界面,并计划面向部分学术研究人员推出早期访问计划。该公司还在探索更广泛的项目应用空间。
该系统拥有显著的灵活性优势。Balog 指出,“至少在我从事机器学习研究工作之前,我还很少见到哪种科学工具能够快速起效并产生如此规模的实际影响。这真的非常罕见。”
随着大语言模型的进步,AlphaEvolve 的功能也将随之增强。该系统展示了 AI 自身的一种有趣演变——从谷歌服务器的数字化疆域开始,优化赋予自身生命的硬件和软件。如今,这份成果已经大大延伸,开始解决困扰人类几十年甚至几个世纪的巅峰难题。
今日好文推荐
微软再次裁员:18 年老员工、10 倍 TypeScript 性能提升幕后功臣也一并优化了
Agentic AI 要终结数据库和 SaaS?大厂掌门人公开互撕,焦虑的 CEO 们押上了不同的技术路线
马斯克 KO 奥特曼!一群前员工倒戈、各界组织助攻,OpenAI 认怂:世界变了,我们不改了!
让PostgreSQL更契合Agent、氛围编程!成立四年、微软投资,这家开源数据库公司终10亿美元卖身Databricks
来源:InfoQ