谷歌Gemini 2.0发布,引入代理AI

摘要:Gemini 2.0 Flash是Gemini 2.0完整套件的低延迟版本,现在作为实验模型向所有Gemini用户开放。具体来说,开发者可以访问新的Gemini API(Google AI Studio、Vertex AI Studio),最终用户可以在Gem

🤖 由 文心大模型 生成的文章摘要

前文介绍了谷歌发布的AI模型Gemini的

谷歌宣布对AI模型Gemini进行重大更新,发布“2.0”更新。更新后的AI模型具有更广泛的多模式推理,并在其软件包中引入了代理AI。

Gemini 2.0 Flash是Gemini 2.0完整套件的低延迟版本,现在作为实验模型向所有Gemini用户开放。具体来说,开发者可以访问新的Gemini API(Google AI Studio、Vertex AI Studio),最终用户可以在Gemini桌面和移动网站内试用2.0 Flash Experimental(稍后将支持Gemini APP)。

Gemini 2.0 Flash现在支持多模式输出和输入,超越了Gemini 1.5 Flash仅提供的多模式输入功能。

Gemini 2.0现在可以使用生成的图像(与文本混合)以及可控制的文本转语音多语言音频进行响应。此外,Gemini 2.0 Flash还可调用Google原生应用(如Google搜索)、执行代码和执行第三方应用定义其他功能。

Gemini 2.0 Flash的另一个核心部分是多模态推理、长上下文理解、复杂指令追踪和规划以及组合函数调用。这些感知、推理、行动和学习的结合元素使Gemini 2.0 Flash具有代理AI的能力。

显然,与代理型人工智能之前的其他人工智能迭代一样,最终的终端用户应用取决于开发者使用Gemini构建的工具。与基于单一输入(提示、结果、重复)创建内容的生成型人工智能不同,代理型人工智能可以理解更长且多步骤的提示,为其制定策略,并执行一系列任务;还可以根据自身工作的反馈和用户的偏好进一步完善其未来。

谷歌有两个正在进行的项目,展示了Gemini代理AI功能的未来。

其中一个是Project Astra,其已经能够熟练掌握多种语言、混合语言、口音和生僻词;还可以使用Gemini 2.0提取Google搜索、Google Lens和Google地图;还具有长达10分钟的扩展会话记忆,可以更好回忆过去的对话;延迟也有所改善,谷歌声称Project Astra现在能够以与普通人类对话相当的延迟理解语言。

另一个例子是Project Mariner,其是使用Gemini 2.0构建的早期原型。Project Mariner被设计为一个浏览器原型,能够理解和推理用户浏览器屏幕上的信息,以代表用户完成浏览器内的任务(需要一个实验性的Chrome扩展程序)。谷歌表示,这证明了代理人工智能在技术上可以用于浏览器导航。

最后,谷歌Jules,一个面向编码开发者的实验性AI代理,可直接在GitHub工作流中运行。

来源:93913虚拟现实一点号

相关推荐