摘要:谷歌 DeepMind 首席执行官兼公司所有 AI 工作负责人 Demis Hassabis 对新 Gemini 2.0 模型的全面性如此兴奋。谷歌将于周三发布 Gemini 2.0 ,距离该公司首次发布 1.5 版约 10 个月。它仍处于谷歌所谓的“实验预览
谷歌大模型Gemini 2.0终于来了。
12月11日晚,科技巨头谷歌发布大模型Gemini 2.0系列首个产品——Gemini 2.0 Flash,并现身google AI Studio。
谷歌 DeepMind 首席执行官兼公司所有 AI 工作负责人 Demis Hassabis 对新 Gemini 2.0 模型的全面性如此兴奋。谷歌将于周三发布 Gemini 2.0 ,距离该公司首次发布 1.5 版约 10 个月。它仍处于谷歌所谓的“实验预览”阶段,并且只发布了一个版本的模型——更小、更低端的 2.0 Flash。但 Hassabis 表示,这仍然是重要的一天。
Hassabis 表示:“实际上,它与当前的 Pro 型号一样好。因此,您可以认为它比之前的版本高出一个层次,但成本效率、性能效率和速度都相同。我们对此非常满意。”它不仅可以更好地完成 Gemini 可以完成的旧任务,还可以完成新任务。Gemini 2.0 现在可以原生生成音频和图像,并带来了新的多模式功能,Hassabis 表示这将为 AI 的下一个重大事件奠定了基础:Agent代理。
谷歌CEO Sundar Pichai表示,“我们以 Gemini 2.0 Flash 开启了 Gemini 2.0 时代,其在关键基准测试中的表现比 1.5 Pro 快 2 倍。我尤其高兴地看到编码方面的快速进步,未来还会有更多进步。”
Agentic AI,也就是大家所说的,指的是能够真正代表你完成任务的人工智能机器人。谷歌自今年春天以来一直在演示一款名为 Project Astra 的机器人——这是一个视觉系统,可以识别物体,帮助你在世界里导航,并告诉你眼镜放在哪里。Hassabis说,Gemini 2.0 代表了 Astra 的巨大进步。
谷歌还推出了 Project Mariner,这是一款实验性的新 Chrome 扩展程序,可以真正为你使用你的网络浏览器。此外还有Jules,一款专门帮助开发人员查找和修复错误代码的代理,以及一款基于 Gemini 2.0 的新代理,它可以查看你的屏幕并帮助你更好地玩视频游戏。哈萨比斯称游戏代理为“复活节彩蛋”,但也指出,这是一个真正多模式的内置模型可以为你做的事情。
Google 和 Alphabet 首席执行官 Sundar Pichai 的说明:
信息是人类进步的核心。正因如此,26 年来我们一直专注于我们的使命,即整理全球信息,让其可供访问和使用。正因如此,我们不断推动人工智能的发展,整理每个输入端的信息,让其可通过任何输出端访问,从而真正为您服务。
这就是我们去年 12 月推出 Gemini 1.0时的愿景。Gemini 1.0 和 1.5 是第一个以原生多模态构建的模型,它在多模态和长上下文方面取得了巨大进步,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。
现在,数百万开发人员正在使用 Gemini 进行开发。它帮助我们重新构想了所有产品(包括拥有 20 亿用户的所有 7 款产品)并创造了新产品。NotebookLM是一个很好的例子,它展示了多模态和长上下文可以为人们带来什么,以及为什么它受到如此多人的喜爱。
在过去的一年里,我们一直在投资开发更多的代理模型,这意味着它们可以更多地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。
今天,我们很高兴推出为这个新代理时代构建的新一代模型:Gemini 2.0,这是我们迄今为止功能最强大的模型。借助多模态性的新进展(如原生图像和音频输出)以及原生工具的使用,它将使我们能够构建新的 AI 代理,让我们更接近通用助手的愿景。
今天,我们将 2.0 交到开发人员和值得信赖的测试人员手中。我们正在迅速将其融入我们的产品中,首先是 Gemini 和 Search。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还将推出一项名为Deep Research的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表您编写报告。它今天在 Gemini Advanced 中可用。
没有哪款产品比搜索更能被人工智能改变。我们的人工智能概览现已覆盖 10 亿人,使他们能够提出全新类型的问题——这很快成为我们最受欢迎的搜索功能之一。下一步,我们将 Gemini 2.0 的高级推理功能引入人工智能概览,以解决更复杂的主题和多步骤问题,包括高级数学方程式、多模式查询和编码。我们本周开始进行有限测试,并将于明年初更广泛地推广。明年,我们将继续将人工智能概览推广到更多国家和语言。
2.0 的进步得益于我们十年来对差异化全栈 AI 创新方法的投资。它建立在定制硬件之上,例如我们的第六代 TPU Trillium。TPU 为 Gemini 2.0 的 100% 训练和推理提供支持,如今 Trillium 已普遍向客户开放,因此他们也可以使用它进行构建。
如果说 Gemini 1.0 是关于组织和理解信息的,那么 Gemini 2.0 就是为了让信息更加有用。我迫不及待地想看看下一个时代会带来什么。
-Sundar
在过去的一年里,我们在人工智能领域取得了令人难以置信的进步。今天,我们发布了 Gemini 2.0 系列模型中的第一个模型:Gemini 2.0 Flash 的实验版本。这是我们的主力模型,具有低延迟和增强的性能,是我们技术最前沿的大规模模型。
我们还通过展示由 Gemini 2.0 原生多模式功能支持的原型来分享我们的代理研究的前沿。
Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,这是我们目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。
我们的目标是将我们的模型安全快速地交到人们手中。过去一个月,我们一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。
Gemini 2.0 Flash 现已作为实验模型通过Google AI Studio和Vertex AI中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。1 月份将全面上市,同时将推出更多模型尺寸。
为了帮助开发人员构建动态和交互式应用程序,我们还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息,请参阅我们的开发人员博客。
此外,从今天开始,全球Gemini用户可以通过在桌面和移动网络上的模型下拉菜单中选择聊天优化版 2.0 Flash 实验版来访问该版本,该版本将很快在 Gemini 移动应用中推出。借助这一新模型,用户可以体验到更加实用的 Gemini 助手。
明年初,我们将把 Gemini 2.0 扩展到更多 Google 产品。
Gemini 2.0 Flash 的原生用户界面操作能力,以及其他改进,如多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟,共同作用以实现新一类的代理体验。
人工智能代理的实际应用是一个充满激动人心的可能性的研究领域。我们正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是我们的研究原型,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的人工智能代码代理。
我们仍处于开发的早期阶段,但我们很高兴看到值得信赖的测试人员如何使用这些新功能以及我们可以学到什么经验教训,以便我们可以在未来的产品中更广泛地使用它们。
自从我们在 I/O 大会上推出Project Astra以来,我们一直在向在 Android 手机上使用 Project Astra 的可靠测试人员学习。他们的宝贵反馈帮助我们更好地了解通用 AI 助手在实践中如何发挥作用,包括对安全和道德的影响。使用 Gemini 2.0 构建的最新版本的改进包括:
更好的对话: Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。新工具用途:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。更好的记忆:我们改进了 Project Astra 的记忆能力,同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆,可以记住您过去与其进行的更多对话,因此可以更好地为您量身定制。改善延迟:借助新的流媒体功能和本机音频理解,代理可以以与人类对话相同的延迟理解语言。我们正在努力将这些功能引入 Google 产品,例如Gemini应用、我们的 AI 助手,以及眼镜等其他设备。我们正开始将我们的可信测试者计划扩展到更多人,其中包括一个即将开始在原型眼镜上测试 Project Astra 的小组。
Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。
根据WebVoyager 基准进行评估,该基准测试代理在端到端真实世界网络任务上的性能,Project Mariner作为单一代理设置实现了 83.5% 的最佳工作结果。
虽然还为时过早,但 Mariner 项目表明,在浏览器中导航在技术上已经成为可能,尽管目前它完成任务并不总是准确且缓慢,但随着时间的推移,这种情况将迅速改善。
为了安全、负责地构建这一系统,我们正在积极研究新型风险和缓解措施,同时让人类参与其中。例如,Project Mariner 只能在浏览器的活动选项卡中键入、滚动或点击,并且它会在用户执行某些敏感操作(例如购买某物)之前要求用户进行最终确认。
值得信赖的测试人员现在开始使用实验性的 Chrome 扩展程序测试 Project Mariner,同时我们也开始与网络生态系统进行对话。
接下来,我们将探索人工智能Agent如何通过 Jules 协助开发人员。Jules 是一款实验性的人工智能代码代理,可直接集成到 GitHub 工作流程中。它可以解决问题、制定计划并执行,所有这些都在开发人员的指导和监督下完成。这项工作是我们长期目标的一部分,即构建在所有领域(包括编码)中都有用的人工智能代理。
Google DeepMind长期以来 一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。例如,就在上周,我们推出了Genie 2,这是我们的 AI 模型,它可以从一张图片中创建无限多样的可玩 3D 世界。基于这一传统,我们使用 Gemini 2.0 构建了代理,可以帮助您在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推断游戏,并在实时对话中提供下一步操作的建议。
我们正在与 Supercell 等领先的游戏开发商合作,探索这些代理的工作方式,测试它们解释各种游戏规则和挑战的能力,从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏。
除了充当虚拟游戏伙伴之外,这些代理甚至可以利用 Google 搜索为您提供网络上丰富的游戏知识。
除了探索虚拟世界中的代理能力外,我们还通过将 Gemini 2.0 的空间推理能力应用于机器人技术,试验可以在现实世界提供帮助的代理。虽然现在还处于早期阶段,但我们对可以在物理环境中提供帮助的代理的潜力感到兴奋。
Gemini 2.0 Flash 和我们的研究原型使我们能够测试和迭代 AI 研究前沿的新功能,最终将使 Google 产品更具实用性。
在开发这些新技术的过程中,我们认识到它所带来的责任,以及人工智能代理为安全和保障带来的许多问题。这就是为什么我们采取探索性和渐进式的开发方法,对多个原型进行研究,反复实施安全培训,与值得信赖的测试人员和外部专家合作,并进行广泛的风险评估以及安全和保障评估。
例如:
作为安全流程的一部分,我们与责任与安全委员会(RSC)(我们的长期内部审查小组)合作,以识别和了解潜在风险。Gemini 2.0 的推理能力使我们的 AI 辅助红队方法取得了重大进步,包括能够超越简单地检测风险,现在能够自动生成评估和训练数据以减轻风险。这意味着我们可以更有效地优化模型以确保大规模安全。随着 Gemini 2.0 的多模态性增加了潜在输出的复杂性,我们将继续通过图像和音频输入和输出来评估和训练模型,以帮助提高安全性。借助 Project Astra,我们正在探索可能的缓解措施,以防止用户无意中与代理共享敏感信息,并且我们已经内置了隐私控制功能,方便用户删除会话。我们还在继续研究如何确保 AI 代理充当可靠的信息来源,并且不会代表您采取意外行动。借助 Project Mariner,我们致力于确保模型学会优先处理用户指令,而不是第三方的即时注入尝试,这样它就可以识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过电子邮件、文档或网站中隐藏的恶意指令等方式遭受欺诈和网络钓鱼攻击。我们坚信,构建人工智能的唯一方法是从一开始就负责任,在改进模型和代理的过程中,我们将继续优先将安全性和责任作为模型开发过程的关键要素。
今天的发布标志着我们的 Gemini 模型翻开了新的篇章。随着 Gemini 2.0 Flash 的发布,以及一系列探索代理可能性的研究原型,我们已经在 Gemini 时代达到了一个令人兴奋的里程碑。我们期待在向 AGI 迈进的过程中继续安全地探索所有触手可及的新可能性。
来源:科技新鲜汇Tech