Google推出 Gemini 2.0，让AI Agent时代成为现实

摘要：“今天，很高兴推出为新的代理时代打造的下一个模型时代——Gemini 2.0，这是谷歌迄今为止功能最强大的模型。随着多模态（如原生图像和音频输出）和原生工具的使用方面的新进展，将使与用户能够构建新的AI Agent，更接近通用助手的愿景。“谷歌在博客文章中说。

2025 年将是 AI 代理之年，而 Gemini 2.0 将成为支撑我们基于代理的工作的模型的一代。

谷歌终于推出了其下一代AI模型Gemini 2.0，旨在重新定义多模态功能并引入AI Agent功能。

“今天，很高兴推出为新的代理时代打造的下一个模型时代——Gemini 2.0，这是谷歌迄今为止功能最强大的模型。随着多模态（如原生图像和音频输出）和原生工具的使用方面的新进展，将使与用户能够构建新的AI Agent，更接近通用助手的愿景。“谷歌在博客文章中说。

“2025年将是AI Agent之年，而 Gemini 2.0 将是支撑我们基于代理的工作的模型的生成，“Google DeepMind 首席执行官 Demis Hassabis 说。

Gemini 2.0 Flash支持多模态输入，包括图像、视频和音频，以及多模态输出，例如本地生成的图像与文本相结合，以及可操纵的文本到语音转换（TTS）多语言音频。它还可以原生调用 Google 搜索等工具、执行代码并集成第三方用户定义的函数。

Gemini 2.0 Flash 型号提供更快的响应时间，并且在主要基准测试中优于其前代产品。开发人员可以通过Google AI Studio和Vertex AI访问Gemini 2.0 Flash，预计将于2025年1月全面上市。

Google还推出了Multimodal Live API，带来了实时音频和视频输入功能，使开发人员能够创建动态的交互式应用程序。

在 Google I/O 2024上推出的通用AI助手Google Project Astra已获得多项更新。它现在支持多语言和混合语言对话，并改进了对口音和不常见词的理解。

在Gemini 2.0 的支持下，Project Astra还可以利用 Google 搜索、Lens 和 Maps，使其成为更实用的日常任务助手。它的记忆力得到了增强，允许长达 10 分钟的会话中回忆，并通过过去的交互实现更好的个性化。此外，改进的流式处理和本机音频处理减少了延迟，实现了接近人类的对话速度。

Google 还宣布了一个早期研究原型Project Mariner，将根据用户在 Web 浏览器上导航时可以访问的信息进行理解和推理。

谷歌表示，AI Agent使用通过 Google Chrome 扩展程序在屏幕上看到的信息来完成相关任务。代理将能够读取信息，例如文本、代码、图像、表单，甚至基于语音的指令。

“预订从旧金山到柏林的航班，3月5日出发，12日返回。能够给计算机一个相当复杂的高级任务，然后让它启动并为你做很多工作的时代正在成为现实，“Google DeepMind 的首席科学家 Jeff Dean举例说明。

Google 还推出了Jules，这是一个以开发人员为中心的代理，它与 GitHub 工作流集成，以协助在监督下编写代码任务。

Google DeepMind正在开发AI代理，以改进视频游戏和导航3D世界。它与Supercell等游戏开发商合作，探索AI驱动的游戏伴侣的未来。Gemini 2.0 的空间推理也在机器人技术中进行了实际应用测试。

值得注意的是，它最近推出了 Genie 2，这是一个大型基础世界模型，能够生成各种可玩的 3D 环境。