Google推出Gemini

摘要：Google的全新开始公司本月宣布推出Gemini 2.0系列的第一个模型—以其低延迟和增强性能而著称的Gemini 2.0 Flash的实验版本。伴随着Gemini 2.0的发表，Google 和 Alphabet 的 CEO Sundar Pichai 回

Google的全新开始公司本月宣布推出Gemini 2.0系列的第一个模型—以其低延迟和增强性能而著称的Gemini 2.0 Flash的实验版本。伴随着Gemini 2.0的发表，Google 和 Alphabet 的 CEO Sundar Pichai 回顾了Google这26年来致力于组织全球信息并使其易于访问和有用的目标，并强调了信息对人类进步的重要性。从去年12月，Google推出了Gemini 1.0，这是首个支持多模态的模型，能够处理文本、视频、图像、音频和代码等多种形式的信息，并且在长上下文的理解上取得了进展。如今，Gemini已经吸引了数百万开发者使用，并推动了多个拥有2亿用户的平台的创新，比如NotebookLM就是一个利用多模态特性的成功案例。

在过去的一年里，Google专注于开发具有更强代理能力的AI模型，这些模型可以更好地理解环境，进行多步推理，并在用户的监督下执行任务。如今公司推出了Gemini 2.0，这个最新的模型不仅在多模态方面有了新的提升，还能直接生成图像和音频输出，并具备工具使用能力。这将有助于创建更智能的AI助手，向实现全能助手的目标迈进了一步。

Gemini 2.0已经开始向开发者和信任的测试者提供，并计划迅速整合到产品线中，特别是搜索引擎。新推出的“深度研究”功能将作为研究助手，帮助用户探索复杂主题并编撰报告。搜索功能一直是AI变革的重点领域。目前，Google的AI概览已覆盖10亿人，允许他们提出新的类型的问题。未来，Gemini 2.0的高级推理能力将进一步增强这一特性，以处理更复杂的查询，包括数学方程、多模态查询和编程问题。

支撑Gemini 2.0的背后是Google多年来在AI领域的全栈方法和技术积累，其中包括第六代TPU——Trillium芯片，它为模型的训练和推理提供了强大的计算能力。Trillium现已面向客户开放，使更多开发者能够利用这项技术构建自己的项目。

接下来我们来看下本次发布的Gemini 2.0 Flash带来的新的技术体验！

Gemini 2.0 Flash的特点

Gemini 2.0 Flash继承并发扬了1.5 Flash的成功，相比前代，2.0 Flash不仅保持了快速响应时间，还在关键基准测试中超越了1.5 Pro，速度提高了两倍。

此外，Gemini 2.0 Flash还支持了多模态输入与输出——除了处理图像、视频和音频等多模态输入外，2.0 Flash现在还能生成结合文本的图像，并提供可调节的多语言文本转语音（TTS）功能。以及工具调用——可以直接调用像Google Search这样的工具，执行代码，甚至可以调用第三方用户自定义函数。

Gemini 2.0 Flash正式开放

目前，开发者可以通过Google AI Studio和Vertex AI平台上的Gemini API访问Gemini 2.0 Flash的实验版本。这一版本支持多模态输入和文本输出，所有开发者都可以使用；而对于早期合作伙伴，则开放了文本转语音和原生图像生成的功能。预计到明年1月，更多不同规模的模型将全面上线。

为了帮助开发者构建动态和交互式应用，Google还发布了新的多模态实时API，它支持实时音频、视频流输入，并能够结合使用多种工具。关于2.0 Flash和多模态实时API的更多信息，可以在开发者博客中找到。

Gemini 2.0应用于AI助手

全球的Gemini用户可以在桌面和移动网页版中选择2.0 Flash的聊天优化版本进行体验，不久后也将出现在Gemini移动应用中。通过这个新模型，用户可以享受到更加智能和有用的Gemini助手服务。

探索代理体验的新可能

Gemini 2.0 Flash的原生用户界面动作能力、多模态推理、长上下文理解、复杂指令执行和规划、组合函数调用、原生工具使用以及改进的延迟等功能共同作用，开启了代理体验的新纪元。

在AI代理的实际应用方面，这是一个充满无限潜力的研究领域。Google正在探索一系列原型项目，以帮助人们完成任务。例如，Project Astra研究的是未来全能AI助手的能力；Project Mariner着眼于浏览器中的人机互动；还有Jules，一个能辅助开发者的代码代理。

接下来展开讲讲这几个新的AI代理应用。

Project Astra：探索多模态理解在现实世界的应用

Project Astra是谷歌DeepMind推出的多模态虚拟助手，它不仅支持在安卓手机上使用，而且还在开发阶段中被集成到原型眼镜中。基于Gemini 2.0构建的最新版本的Project Astra实现了多项改进：

更流畅的对话：现在，Project Astra能够用多种语言甚至混合语言进行交流，并且对口音和不常见词汇有更好的理解能力。新增工具使用：借助Gemini 2.0，Project Astra可以使用Google Search、Lens和Maps等工具，使其在日常生活中更加实用。更强的记忆功能：Project Astra现在可以在会话中保持长达10分钟的记忆，并能记住更多之前的对话内容，使个性化体验更加完善，同时确保用户始终处于控制之中。更低延迟：通过新的流式处理能力和原生音频理解技术，代理能够在接近人类对话的速度下理解和回应语言。

比如下面图中，用户可以通过拍摄直接提问Project Astra进行对话

Project Mariner：探索浏览器中的人机协作新方式

Project Mariner 是一个基于 Gemini 2.0 构建的早期研究原型，旨在探索未来人机交互的可能性，从浏览器开始。作为研究项目，它能够理解和处理浏览器屏幕上的信息，包括图像、文本、代码和表单等元素，并通过实验性的Chrome扩展程序来帮助用户完成任务。

在WebVoyager基准测试中，该测试评估代理在真实世界网络任务中的表现，Project Mariner取得了83.5%的成功率，尽管仍处于早期阶段，Project Mariner表明了在浏览器内导航并执行任务的技术可行性，不过目前的准确性和速度还有待提高。

目前，部分测试者已经开始使用实验性的Chrome扩展程序测试Project Mariner。

右侧输入了任务后，浏览器就会自动执行相关的任务，并在执行过程中展示它的思维链

Jules：为开发者提供辅助的AI代理

Google的Jules是一个实验性的AI代码助手，帮助开发者自动修复代码错误。Jules的发布是谷歌在自动化编程任务方面的重要进展，与Gemini 2.0一同发布，使用更新后的谷歌人工智能模型来创建多步骤计划，以解决问题、修改多个文件，并直接集成到GitHub工作流中。Jules的设计理念是让开发者能够专注于核心开发工作，同时Jules在后台异步处理bug修复和其他耗时的任务。

Jules的主要功能包括：

自动修复代码错误：Jules能够分析代码库，识别错误，并自动生成修复方案。多步骤计划执行：它能够创建并执行多步骤计划，以解决复杂的问题。GitHub工作流集成：Jules可以与GitHub工作流无缝集成，允许开发者直接在GitHub上接受、审查和合并Jules生成的代码。自然语言处理：Jules能够理解自然语言描述的问题，并据此生成代码解决方案。开发者控制：开发者可以完全控制审查和调整Jules创建的解决方案，然后再选择将其生成的代码合并到他们的项目中。

Jules目前仅向一小部分测试者开放，预计2025年初将实现更广泛的访问。目前如果要使用的话需要访问Google Labs官网，申请成为Jules的受信任测试者，按照官网提供的指南安装Jules插件到你的开发环境中。谷歌已计划将类似功能整合到其开发生态系统中，包括Android Studio和Chrome DevTools。Jules与其说是一个编码助手，但背后是谷歌打造能够自主运作的AI代理的更大愿景。

游戏及其他领域的AI代理

Google DeepMind一直有使用游戏来提升AI模型在规则遵循、规划和逻辑方面能力的传统。上周推出的Genie 2模型就可以从单张图像生成无限多样的可玩3D世界。延续这一传统，DeepMind利用Gemini 2.0构建了能够在视频游戏中帮助玩家导航的代理。这些代理可以根据屏幕上的动作实时分析游戏情况，并提供下一步行动的建议。

DeepMind正与领先的游戏开发商如Supercell合作，探索这些代理的实际应用。通过测试，他们评估这些代理在不同类型游戏中的表现，从策略游戏《部落冲突》到模拟经营类游戏《Hay Day》，看它们如何解读游戏规则和应对挑战。

除了作为虚拟游戏伴侣，这些代理还能接入Google Search，为玩家提供丰富的在线游戏知识资源。这意味着玩家不仅可以获得游戏内的即时建议，还能访问广泛的外部信息，进一步提升游戏体验。

在物理世界中探索Gemini 2.0的代理能力

除了在虚拟世界中探索代理能力，Google还在尝试将Gemini 2.0的空间推理能力应用于机器人技术，以帮助在物理环境中提供协助。尽管这一领域仍处于早期阶段，但公司对这些技术的潜力感到乐观。（更多关于这些研究原型和实验的信息可以在labs.google上找到）

负责任地构建代理时代的技术

随着Gemini 2.0 Flash和一系列研究原型的推出，Google得以在AI研究的前沿测试和迭代新的功能，最终目的是使公司的产品更加有用。在开发这些新技术的过程中，Google也非常的关注AI代理在安全性和隐私方面带来的诸多问题。

为了确保技术的安全与可靠，Google采取了渐进式的开发方法：

内部审查：通过与责任和安全委员会（RSC）合作，识别并理解潜在风险。自动评估与训练数据生成：利用Gemini 2.0的推理能力改进AI辅助红队测试方法，不仅能检测风险，还能自动生成评估和训练数据来缓解风险，从而更高效地优化模型的安全性。多模态复杂性管理：随着Gemini 2.0的多模态能力增加输出的复杂性，Google将继续评估和训练模型处理图像和音频输入及输出的能力，以提升安全性。用户隐私保护：通过Project Astra，研究如何防止用户无意间与代理共享敏感信息，并已内置隐私控制功能，让用户可以轻松删除会话记录。防止恶意指令：借助Project Mariner，确保模型优先响应用户指令而非第三方尝试注入的提示，能够识别并阻止来自外部来源的潜在恶意指令，防止欺诈和网络钓鱼攻击。

Google AI Studio 是一个用于使用生成模型进行原型设计的集成开发环境 (IDE)，利用 Google AI Studio，我们可以快速尝试各种模型，使用不同的提示进行试验