谷歌Gemini 2.0大模型上线:你好,实用Agent时代!

摘要:北京时间12月12日早间,谷歌宣布推出其旗舰人工智能大模型的新版本Gemini 2.0,以及基于此模型构建的几款专门用于特定任务的新AI代理原型产品,其中包括新推出的充当研究助手的Deep Research(深度研究)、编程助手Jules等。

北京时间12月12日早间,谷歌宣布推出其旗舰人工智能大模型的新版本Gemini 2.0,以及基于此模型构建的几款专门用于特定任务的新AI代理原型产品,其中包括新推出的充当研究助手的Deep Research(深度研究)、编程助手Jules等。

通过模型更新和更多代理原型产品的展示,谷歌在展示一个新的实用人工智能的时代,有用的个人AI助理将会越来越好,越来越多,帮助用户完成更多工作。

Google 和 Alphabet 首席执行官 Sundar Pichai 寄语

信息是人类进步的核心。正因如此,26 年来我们一直专注于我们的使命,即整理全球信息,让其可供访问和使用。正因如此,我们不断推动人工智能的发展,整理每个输入端的信息,让其可通过任何输出端访问,从而真正为您服务。

这就是我们去年 12 月推出 Gemini 1.0时的愿景。Gemini 1.0 和 1.5 是第一个以原生多模态构建的模型,它在多模态和长上下文方面取得了巨大进步,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。

现在,数百万开发人员正在使用 Gemini 进行开发。它帮助我们重新构想了所有产品(包括拥有 20 亿用户的所有 7 款产品)并创造了新产品。NotebookLM是一个很好的例子,它展示了多模态和长上下文可以为人们带来什么,以及为什么它受到如此多人的喜爱。

在过去的一年里,我们一直在投资开发更多的代理模型,这意味着它们可以更多地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。

今天,我们很高兴推出为这个新代理时代构建的新一代模型:Gemini 2.0,这是我们迄今为止功能最强大的模型。借助多模态性的新进展(如原生图像和音频输出)以及原生工具的使用,它将使我们能够构建新的 AI 代理,让我们更接近通用助手的愿景。

今天,我们将 2.0 交到开发人员和值得信赖的测试人员手中。我们正在迅速将其融入我们的产品中,首先是 Gemini 和 Search。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还将推出一项名为Deep Research的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表您编写报告。它今天在 Gemini Advanced 中可用。

没有哪款产品比搜索更能体现人工智能带来的改变。我们的人工智能概览现已覆盖 10 亿人,使他们能够提出全新类型的问题——这很快成为我们最受欢迎的搜索功能之一。下一步,我们将 Gemini 2.0 的高级推理功能引入人工智能概览,以解决更复杂的主题和多步骤问题,包括高级数学方程式、多模式查询和编码。我们本周开始进行有限测试,并将于明年初更广泛地推广。明年,我们将继续将人工智能概览推广到更多国家和语言。

2.0 的进步得益于我们十年来对差异化全栈 AI 创新方法的投资。它建立在定制硬件之上,例如我们的第六代TPU Trillium。TPU 为 Gemini 2.0 的 100% 训练和推理提供支持,如今 Trillium 已普遍向客户开放,因此他们也可以使用它进行构建。

如果说 Gemini 1.0 是关于组织和理解信息的,那么 Gemini 2.0 就是为了让信息更加有用。我迫不及待地想看看下一个时代会带来什么。

-Sundar

推出 Gemini 2.0:面向代理时代的全新 AI 模型

谷歌今天发布了 Gemini 2.0 系列模型中的第一个模型:Gemini 2.0 Flash Experimental 版本。在关键基准测试中,2.0 Flash 甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。


Gemini 2.0 Flash Experimental 版本基准测试成绩

2.0 Flash还增加了新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

Gemini 2.0 Flash现已作为实验模型通过Google AI Studio和Vertex AI中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。1 月份将全面上市,同时将推出更多模型尺寸。

为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。

此外,从今天开始,全球Gemini用户可以通过在桌面和移动网络上的模型下拉菜单中选择聊天优化版 2.0 Flash 实验版来访问该版本,该版本将很快在 Gemini 移动应用中推出。

通过 Gemini 2.0 解锁代理体验

Gemini 2.0 Flash的原生用户界面操作能力,以及其他改进,如多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟,为实现新一类的代理体验提供了支撑。

谷歌表示,人工智能代理的实际应用是一个充满激动人心的可能性的研究领域。我们正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。

目前,谷歌正在通过 Gemini 2.0 探索全新的代理体验,包括:新推出的“深度研究”助手, Project Astra、Project Mariner 和 Jules 等。

新推出“深度研究”(Deep-Research)新功能:个人 AI 研究助理

谷歌新推出了一项名为“深度研究”(Deep-Research)的新功能,该功能将使 Gemini 用户能够使用人工智能深入研究主题并生成详细报告。该功能被称为人工智能研究助手,已向Gemini Advanced(谷歌的付费人工智能订阅产品)的用户推出。

根据展示,在用户的监督下,深度研究会为用户完成艰苦的工作。输入问题后,它会创建一个多步骤的研究计划,供用户修改或批准。一旦用户批准,它就会开始深入分析来自网络的相关信息。只需几分钟,用户就可以完成数小时的研究。

Project Astra是一个实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互。

使用 Gemini 2.0 支持之后,Project Astra 实现了新的改进,其中包括:

更强的对话能力:Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。

新工具用途:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。

更好的记忆:Project Astra 的记忆能力大幅改进,它现在拥有长达 10 分钟的会话记忆,可以记住用户其进行的更多对话。

延迟进一步改善:借助新的流媒体功能和本机音频理解,代理可以以与人类对话相同的延迟理解语言。

Project Mariner:能帮你完成复杂任务的代理

Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。

作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。

谷歌表示,虽然还为时过早,但 Mariner 项目表明,在浏览器中导航在技术上已经成为可能,尽管目前它完成任务并不总是准确且缓慢,但随着时间的推移,这种情况将迅速改善。

Jules :开发者的代理

Jules 是一款实验性的人工智能代码代理,可直接集成到 GitHub 工作流程中。它可以解决问题、制定计划并执行,所有这些都在开发人员的指导和监督下完成。

游戏和其他领域的代理

谷歌还展示了一个尚未命名的电子游戏人工智能代理,旨在通过根据屏幕推理游戏并在实时对话中提供建议来帮助玩家。

除了探索虚拟世界中的代理能力外,谷歌还通过将 Gemini 2.0 的空间推理能力应用于机器人技术,试验可以在现实世界提供帮助的代理。

这些工作处于“早期实验阶段”,旨在展示 Gemini 2.0 可能实现的一些人工智能代理体验。

谷歌表示:今天的发布标志着我们的 Gemini 模型翻开了新的篇章。随着 Gemini 2.0 Flash 的发布,以及一系列探索代理可能性的研究原型,我们已经在 Gemini 时代达到了一个令人兴奋的里程碑。我们期待在向 AGI 迈进的过程中继续安全地探索所有触手可及的新可能性。

来源:小安科技每日一讲

相关推荐