中信建投 | Claude4系列模型正式发布，Google全面拥抱AI Agent

摘要：Claude4系列模型正式发布，编程和智能体流程能力大幅提升。Claude4系列模型包括Claude Opus4和Claude Sonnet4，更新在编程能力、高级推理和AI智能体应用方面。Claude Opus 4 和Sonnet 4都是混合模型，支持「极速

1.Claude4系列模型正式发布，编程和智能体流程能力大幅提升。Claude4系列模型包括Claude Opus4和Claude Sonnet4，更新在编程能力、高级推理和AI智能体应用方面。Claude Opus 4 和Sonnet 4都是混合模型，支持「极速响应」和「深度思考」两种模式，兼顾了高效输出和高阶推理的需求。

2.GoogleI/O 2025开发者大会召开，全面拥抱AI Agent。Google I/O 2025开发者大会“降低门槛、加速创造”5月20日召开，发布包括AI、多模态模型、跨设备整合与开发者工具方面的最新成果，谷歌也全面拥抱AI Agent，让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini，并通过Gemini与搜索结合，推出全新的AI模式搜索。

1.1 Claude4系列模型正式发布

Anthropic于2025年5月22日正式发布Claude4系列模型，包括Claude Opus 4和Claude Sonnet 4，更新在编程能力、高级推理和AI智能体应用方面。Claude Opus 4和Sonnet 4都是混合模型，支持「极速响应」和「深度思考」两种模式，兼顾了高效输出和高阶推理的需求。其中，Claude Opus 4是全球顶尖的编码模型，擅长复杂、长时间运行的任务，在AI智能体工作流方面性能极为出色。而Claude Sonnet 4，则是对Sonnet 3.7的重大升级，编码和推理能力都更出色，还能更精准地响应指令。定价方面，Claude Opus 4每百万token为15美元（输入）/75美元（输出），Claude Sonnet 4每百万Token为3美元（输入）/15美元（输出）。

Claude Opus 4：在SWE-bench和Terminal-bench测试中，分别以72.5%和43.2%的得分全面领先，碾压OpenAI刚刚发布的编程智能体Codex-1和最强推理模型o3。即使在需要高度专注并执行数千步骤的长时间运行任务中，它都能展现出持续稳定的性能，连续工作数小时。

Claude Sonnet 4：在编码上能力突出，在SWE-bench测试中，取得72.7%的成绩，而且，Sonnet 4在内部及外部应用场景中，均实现了性能与效率的良好平衡，可操控性也大大增加了。尽管在多数领域，Sonnet 4的表现并不及Opus 4，但它在能力与实用性之间却达到了最佳平衡。

此外，Anthropic还带来了一系列重要更新。①工具化扩展思考：两款新模型均都支持工具调用——例如「网页搜索」。在深度思考过程中，Claude可以在推理与工具调用之间灵活切换，持续提升回答的准确性和实用性。两款模型都支持多工具并行使用，Claude的记忆能力将显著增强，它能自动提取和保存关键信息。②Claude Code 正式开放：Claude Code现已全面开放，它支持通过GitHub Actions执行后台任务，可以直接编辑文件内容，极大提升协同编程体验。③全新API能力：Anthropic API推出了四大功能升级，开发者可以借此构建更强大的AI智能体。

1.2 Google I/O 2025开发者大会召开

Google I/O 2025开发者大会“降低门槛、加速创造”5月20日召开，发布包括AI、多模态模型、跨设备整合与开发者工具方面的最新成果，谷歌也全面拥抱AI Agent，让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini，并通过Gemini与搜索结合，推出全新的AI模式搜索。

模型方面，谷歌发布Gemini 2.5 Flash模型、AI Studio全新开发体验、Android与Gemini Nano深度整合、多模态工具Stitches和实时部署能力。Gemini 2.5 Flash是速度极快、价格友好的AI模型，适合原型开发。AI Studio新增原生语音模型，支持24种语言与主动音频识别。云端处理适合高性能任务，设备端使用Gemini Nano提供summarize、rewrite等轻量功能。推出Androidify应用：通过自拍图像+Gemini模型描述人物特征，再生成可爱Android机器人形象。

模型方面：Gemini 2.5 Pro在3月首次亮相后，成为谷歌目前有史以来最智能的一款旗舰模型。两周前，Gemini 2.5 Pro Preview版本首次更新后，便在LMArena排行榜中登顶。其中，在WebDev Arena排行榜中拿下1415分，相较于3月版提升了142分。此次开发者大会，Gemini 2.5迎来三连更：①Gemini 2.5 Pro（新）：再次刷榜LMArena，ELO拿下1448分，所有类别第一，超越o3，原生文本到音频生成。②Gemini 2.5 Pro（Deep Think）：刷榜数学、编码、多模态榜单。③Gemini 2.5 Flash（新）：排名仅次Gemini 2.5 Pro，ELO得分1424，原生文本到音频生成。

Gemini 2.5 Flash：在推理、多模态、代码、长上下文的关键基准上，2.5 Flash性能进一步提升。评估中，使用的token减少了20%-30%。Gemini 2.5两款迭代后的模型，支持更多新功能，包括原生音频输出、思考预算等。

Gemini 2.5 Pro（Deep Think）：2.5 Pro深度思考版在数学、编码、多模态榜单上，刷新了SOTA。在2025 USAMO数学奥赛中（最难数学基准之一），取得了40.4%高分，比2.5 Pro高出了10%多。在LiveCodeBench上，一举攻克竞赛级编程难题，拿下80.4%分。而且，在多模态推理MMMU上取得了84.0%。

Gemini Diffusion：谷歌还带了全新文本扩散模型Gemini Diffusion，让模型更加擅长处理编辑任务。与直接预测文本不同，它通过逐步优化噪声来生成输出。这种方法，让Gemini Diffusion能快速迭代优化解决方案，在编程和数学领域表现尤为出色。Gemini Diffusion每秒输出1000多个token，性能要比Gemini 2.0 Flash-Lite快5倍。

北美经济衰退预期逐步增强，宏观环境存在较大的不确定性，国际环境变化影响供应链及海外拓展；芯片紧缺可能影响相关公司的正常生产和交付，公司出货不及预期；下游需求不及预期影响公司正常生产和交付，导致收入及增速不及预期；信息化和数字化方面的需求和资本开支不及预期；市场竞争加剧，导致毛利率快速下滑；主要原材料价格上涨，导致毛利率不及预期；汇率波动影响外向型企业的汇兑收益与毛利率；人工智能技术进步不及预期；汽车与工业智能化进展不及预期。

来源：点滴财学

标签： google agent aiagent 模 claude4

本文地址：https://news.43u.com.cn/a/1850059.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!