Google推出 Gemini 2.0,让AI Agent时代成为现实

摘要:“今天,很高兴推出为新的代理时代打造的下一个模型时代——Gemini 2.0,这是谷歌迄今为止功能最强大的模型。随着多模态(如原生图像和音频输出)和原生工具的使用方面的新进展,将使与用户能够构建新的AI Agent,更接近通用助手的愿景。“谷歌在博客文章中说。

2025 年将是 AI 代理之年,而 Gemini 2.0 将成为支撑我们基于代理的工作的模型的一代。

谷歌终于推出了其下一代AI模型Gemini 2.0,旨在重新定义多模态功能并引入AI Agent功能。

“今天,很高兴推出为新的代理时代打造的下一个模型时代——Gemini 2.0,这是谷歌迄今为止功能最强大的模型。随着多模态(如原生图像和音频输出)和原生工具的使用方面的新进展,将使与用户能够构建新的AI Agent,更接近通用助手的愿景。“谷歌在博客文章中说。

“2025年将是AI Agent之年,而 Gemini 2.0 将是支撑我们基于代理的工作的模型的生成,“Google DeepMind 首席执行官 Demis Hassabis 说。

Gemini 2.0 Flash支持多模态输入,包括图像、视频和音频,以及多模态输出,例如本地生成的图像与文本相结合,以及可操纵的文本到语音转换 (TTS) 多语言音频。它还可以原生调用 Google 搜索等工具、执行代码并集成第三方用户定义的函数。

Gemini 2.0 Flash 型号提供更快的响应时间,并且在主要基准测试中优于其前代产品。开发人员可以通过Google AI Studio和Vertex AI访问Gemini 2.0 Flash,预计将于2025年1月全面上市。

Google还推出了Multimodal Live API,带来了实时音频和视频输入功能,使开发人员能够创建动态的交互式应用程序。

在 Google I/O 2024上推出的通用AI助手Google Project Astra已获得多项更新。它现在支持多语言和混合语言对话,并改进了对口音和不常见词的理解。

在Gemini 2.0 的支持下,Project Astra还可以利用 Google 搜索、Lens 和 Maps,使其成为更实用的日常任务助手。它的记忆力得到了增强,允许长达 10 分钟的会话中回忆,并通过过去的交互实现更好的个性化。此外,改进的流式处理和本机音频处理减少了延迟,实现了接近人类的对话速度。

Google 还宣布了一个早期研究原型Project Mariner,将根据用户在 Web 浏览器上导航时可以访问的信息进行理解和推理。

谷歌表示,AI Agent使用通过 Google Chrome 扩展程序在屏幕上看到的信息来完成相关任务。代理将能够读取信息,例如文本、代码、图像、表单,甚至基于语音的指令。

“预订从旧金山到柏林的航班,3月5日出发,12日返回。能够给计算机一个相当复杂的高级任务,然后让它启动并为你做很多工作的时代正在成为现实,“Google DeepMind 的首席科学家 Jeff Dean举例说明。

Google 还推出了Jules,这是一个以开发人员为中心的代理,它与 GitHub 工作流集成,以协助在监督下编写代码任务。

Google DeepMind正在开发AI代理,以改进视频游戏和导航3D世界。它与Supercell等游戏开发商合作,探索AI驱动的游戏伴侣的未来。Gemini 2.0 的空间推理也在机器人技术中进行了实际应用测试。

值得注意的是,它最近推出了 Genie 2,这是一个大型基础世界模型,能够生成各种可玩的 3D 环境。

来源:小圆科技论

相关推荐