中信建投 | Claude4系列模型正式发布,Google全面拥抱AI Agent

360影视 欧美动漫 2025-05-29 00:27 2

摘要:Claude4系列模型正式发布,编程和智能体流程能力大幅提升。Claude4系列模型包括Claude Opus4和Claude Sonnet4,更新在编程能力、高级推理和AI智能体应用方面。Claude Opus 4 和Sonnet 4都是混合模型,支持「极速

1.Claude4系列模型正式发布,编程和智能体流程能力大幅提升。Claude4系列模型包括Claude Opus4和Claude Sonnet4,更新在编程能力、高级推理和AI智能体应用方面。Claude Opus 4 和Sonnet 4都是混合模型,支持「极速响应」和「深度思考」两种模式,兼顾了高效输出和高阶推理的需求。

2.GoogleI/O 2025开发者大会召开,全面拥抱AI Agent。Google I/O 2025开发者大会“降低门槛、加速创造”5月20日召开,发布包括AI、多模态模型、跨设备整合与开发者工具方面的最新成果,谷歌也全面拥抱AI Agent,让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini,并通过Gemini与搜索结合,推出全新的AI模式搜索。

1.1 Claude4系列模型正式发布

Anthropic于2025年5月22日正式发布Claude4系列模型,包括Claude Opus 4和Claude Sonnet 4,更新在编程能力、高级推理和AI智能体应用方面。Claude Opus 4和Sonnet 4都是混合模型,支持「极速响应」和「深度思考」两种模式,兼顾了高效输出和高阶推理的需求。其中,Claude Opus 4是全球顶尖的编码模型,擅长复杂、长时间运行的任务,在AI智能体工作流方面性能极为出色。而Claude Sonnet 4,则是对Sonnet 3.7的重大升级,编码和推理能力都更出色,还能更精准地响应指令。定价方面,Claude Opus 4每百万token为15美元(输入)/75美元(输出),Claude Sonnet 4每百万Token为3美元(输入)/15美元(输出)。

Claude Opus 4:在SWE-bench和Terminal-bench测试中,分别以72.5%和43.2%的得分全面领先,碾压OpenAI刚刚发布的编程智能体Codex-1和最强推理模型o3。即使在需要高度专注并执行数千步骤的长时间运行任务中,它都能展现出持续稳定的性能,连续工作数小时。

Claude Sonnet 4:在编码上能力突出,在SWE-bench测试中,取得72.7%的成绩,而且,Sonnet 4在内部及外部应用场景中,均实现了性能与效率的良好平衡,可操控性也大大增加了。尽管在多数领域,Sonnet 4的表现并不及Opus 4,但它在能力与实用性之间却达到了最佳平衡。

此外,Anthropic还带来了一系列重要更新。①工具化扩展思考:两款新模型均都支持工具调用——例如「网页搜索」。在深度思考过程中,Claude可以在推理与工具调用之间灵活切换,持续提升回答的准确性和实用性。两款模型都支持多工具并行使用,Claude的记忆能力将显著增强,它能自动提取和保存关键信息。②Claude Code 正式开放:Claude Code现已全面开放,它支持通过GitHub Actions执行后台任务,可以直接编辑文件内容,极大提升协同编程体验。③全新API能力:Anthropic API推出了四大功能升级,开发者可以借此构建更强大的AI智能体。

1.2 Google I/O 2025开发者大会召开

Google I/O 2025开发者大会“降低门槛、加速创造”5月20日召开,发布包括AI、多模态模型、跨设备整合与开发者工具方面的最新成果,谷歌也全面拥抱AI Agent,让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini,并通过Gemini与搜索结合,推出全新的AI模式搜索。

模型方面,谷歌发布Gemini 2.5 Flash模型、AI Studio全新开发体验、Android与Gemini Nano深度整合、多模态工具Stitches和实时部署能力。Gemini 2.5 Flash是速度极快、价格友好的AI模型,适合原型开发。AI Studio新增原生语音模型,支持24种语言与主动音频识别。云端处理适合高性能任务,设备端使用Gemini Nano提供summarize、rewrite等轻量功能。推出Androidify应用:通过自拍图像+Gemini模型描述人物特征,再生成可爱Android机器人形象。

模型方面:Gemini 2.5 Pro在3月首次亮相后,成为谷歌目前有史以来最智能的一款旗舰模型。两周前,Gemini 2.5 Pro Preview版本首次更新后,便在LMArena排行榜中登顶。其中,在WebDev Arena排行榜中拿下1415分,相较于3月版提升了142分。此次开发者大会,Gemini 2.5迎来三连更:①Gemini 2.5 Pro(新):再次刷榜LMArena,ELO拿下1448分,所有类别第一,超越o3,原生文本到音频生成。②Gemini 2.5 Pro(Deep Think):刷榜数学、编码、多模态榜单。③Gemini 2.5 Flash(新):排名仅次Gemini 2.5 Pro,ELO得分1424,原生文本到音频生成。

Gemini 2.5 Flash:在推理、多模态、代码、长上下文的关键基准上,2.5 Flash性能进一步提升。评估中,使用的token减少了20%-30%。Gemini 2.5两款迭代后的模型,支持更多新功能,包括原生音频输出、思考预算等。

Gemini 2.5 Pro(Deep Think):2.5 Pro深度思考版在数学、编码、多模态榜单上,刷新了SOTA。在2025 USAMO数学奥赛中(最难数学基准之一),取得了40.4%高分,比2.5 Pro高出了10%多。在LiveCodeBench上,一举攻克竞赛级编程难题,拿下80.4%分。而且,在多模态推理MMMU上取得了84.0%。

Gemini Diffusion:谷歌还带了全新文本扩散模型Gemini Diffusion,让模型更加擅长处理编辑任务。与直接预测文本不同,它通过逐步优化噪声来生成输出。这种方法,让Gemini Diffusion能快速迭代优化解决方案,在编程和数学领域表现尤为出色。Gemini Diffusion每秒输出1000多个token,性能要比Gemini 2.0 Flash-Lite快5倍。

北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。

来源:点滴财学

相关推荐