AI Agent由硬及软

摘要：大模型能力持续提升，AI Agent成为当下热点。随着海内外各大科技厂商的大模型能力不断提升，大模型的应用发展也到了AI Agent新阶段。AI Agent落地的典型场景在C端可赋能各种硬件智能终端，如AI眼镜、AI玩具、智能家居等。B端则可推动SaaS平台从

大模型能力持续提升，AI Agent成为当下热点。随着海内外各大科技厂商的大模型能力不断提升，大模型的应用发展也到了AI Agent新阶段。AI Agent落地的典型场景在C端可赋能各种硬件智能终端，如AI眼镜、AI玩具、智能家居等。B端则可推动SaaS平台从简单的业务管理工具转变为驱动智能化业务的引擎。我们认为，在AI Agent落地各ToB行业的过程中，连接大模型与具体场景的软件服务商是必不可少的环节。目前以互联网大厂和独角兽创业公司为主的大模型厂商不一定在各领域具备深耕的行业know-how，另外大模型厂商的研发人员通常人力成本相对较高，所以大模型厂商将精力聚焦于提升基座模型框架能力，由其他软件服务商去对接具体的行业客户是性价比更高的选择。

字节大模型进展不断，应用落地加速。1）1月20日豆包实时语音大模型在豆包 APP 全量开放，在情绪理解和情感表达方面与GPT-4O相比优势明显。情商层面，模型在情感理解、情感承接以及情感表达等方面也取得显著进展，能较为准确地捕捉、回应人类情感信息。2）1月22日，豆包全新基础模型 Doubao-1.5-pro 正式发布，能力全面升级，并进一步提升了多模态能力。Doubao-1.5-pro 使用 MoE 架构，仅用较小激活参数，即可比肩一流超大稠密预训练模型的性能，探索模型性能和推理性能之间的极致平衡。豆包团队还通过 RL 算法的突破和工程优化研发了深度思考模式，在AIME上已经超过O1-preview，O1等推理模型。

OpenAI发布operator，2025是Agent之年。2025年1月24日，OpenAI发布了Operator，一个可以访问网络浏览器执行任务的Agent。OpenAI总裁兼联合创始人Greg Brockman称2025是Agent之年。Operator是使用计算机的Agent (CUA)，将 GPT-4o 的视觉功能与通过强化学习实现的高级推理相结合。经过训练，可以像人类一样与图形用户界面进行交互。这使它能够灵活地执行数字任务，而无需使用特定于操作系统或网络的 API。OpenAI展示的操作浏览器的能力包括下载讲座、合并pdf、压缩图像等。我们认为浏览器操作的进展将极大推动AI Agent在各行业应用的落地。

星际之门计划投资5000亿美元打造AI基础设施。美国总统特朗普宣布成立一家新公司“星际之门计划（Stargate Project）”，计划在未来四年内投资 5000 亿美元，在美国为 OpenAI 建设新的人工智能基础设施。星际之门计划初始股权出资者包括软银、OpenAI、甲骨文和阿联酋主权财富基金穆巴达拉投资公司MGX。软银和 OpenAI 是星际之门的主要合作伙伴，软银负责财务，OpenAI 负责运营。孙正义将担任董事长。OpenAI将立刻开始1000亿美元的部署。

AI Agent软件：萤石网络、汉得信息、中科创达、鼎捷数智、海天瑞声、新致软件、云天励飞、焦点科技、泛微网络、致远互联、金山办公、润达医疗、星环科技、协创数据、恒生电子、小商品城、金证股份、卫宁健康、创业慧康、佳发教育、嘉和美康、金桥信息、新大陆等。

字节AI链：寒武纪、恒玄科技、天键股份、润欣科技、实丰文化、乐鑫科技、萤石网络、中芯国际、孩子王、润泽科技、欧陆通、华懋科技、浪潮信息、中兴通讯、中科曙光、兆易创新、国光电器、法本信息、新致软件、亚康股份、申菱环境、兆龙互连等

军工AI：能科科技、品高股份、海格通信、振芯科技、道通科技。

风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。

大模型能力持续提升，AI Agent成为当下热点

随着海内外各大科技厂商的大模型能力不断提升，大模型的应用发展也到了AI Agent的新阶段。据CNBC，初创公司和大型科技公司都在全力以赴开发AI Agent，Agent不仅仅是提供答案（聊天机器人和图像生成器的领域），而是为提高工作效率并代表用户完成多步骤、复杂的任务而构建的。 AI Agent被视为超越聊天机器人的一步，因为它们通常是为特定的业务功能设计的，并且可以在大型 AI 模型上进行定制。

图表1：模型能力持续提升，Agent落地需要什么连接大模型与应用?

资料来源：腾讯科技、meta、多知网、servicenow，国盛证券研究所

AI Agent落地的典型场景在C端可赋能各种硬件智能终端，如AI眼镜、AI玩具、智能家居等，B端则可推动SaaS平台从简单的业务管理工具转变为驱动智能化业务的引擎。英伟达CEO近期表示SaaS企业正坐拥金矿，将诞生数百万 AI 智能体推动企业在特定任务上实现更高效的智能化管理。

我们认为，在AI Agent落地各B端行业的过程中，连接大模型与具体行业的服务商是必不可少的环节，在C端则需要各类硬件厂商和大模型厂商合作。目前以互联网大厂和独角兽创业公司为主的大模型厂商不一定在各领域具备深耕的行业know-how，另外大模型厂商的研发人员通常在软件行业内属于较高端人才，人力成本相对较高，所以大模型厂商将精力聚焦于提升基座模型框架能力，由其他软件服务商去对接具体的行业客户做定制化开发是性价比更高的选择。因此我们认为在垂类深耕的公司以及具备长期软件服务经验的公司有望把握Agent落地机遇，在对接大模型和具体行业的过程中深度受益。

字节大模型进展不断，应用落地加速

豆包实时语音大模型开放，情商智商双高

2025年1月20日，豆包实时语音大模型正式推出，并在豆包 APP 全量开放，豆包实时语音大模型是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

图表2：豆包实时语音大模型高情商回应用户呼唤，并能准确模仿经典文艺作品

资料来源：豆包大模型团队，国盛证券研究所

豆包实时语音大模型模型情绪理解和表达能力突出。豆包团队围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度进行考评。整体满意度（以 5分为满分）方面，豆包实时语音大模型评分为 4.36，GPT-4o 为 3.18。其中，50% 的测试者对豆包实时语音大模型表现打出满分。在模型优点评测中豆包实时语音大模型在情绪理解和情感表达方面与GPT-4O相比优势明显。尤其是“一听就是 AI与否”评测中，超过 30% 的反馈表示 GPT-4o “过于 AI ”，而豆包实时语音大模型相应比例仅为2% 以内。

图表3：豆包团队模型评测满意度分值分布

字节AI应用落地加速。据AI产品榜2024年12月，豆包MAU为7116万，月增速达18.64%。字节旗下虚拟角色APP猫箱MAU为688万，月增速达50.18%。我们认为豆包实时语音大模型的推出有望进一步改善字节旗下应用体验，加速用户增长。

Doubao-1.5-pro基础模型更新，能力全面升级

1月22日，豆包全新基础模型Doubao-1.5-pro 正式发布，本次更新Doubao-1.5-pro 基础模型能力全面提升，在多个公开评测基准上表现优异。

图表4：Doubao-1.5-pro 在多个基准上的测评结果

模型性能与推理性能的极致平衡：Doubao-1.5-pro使用稀疏 MoE 架构，在预训练阶段，仅用较小参数激活的 MoE 模型，性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究，确定了性能和效率比较平衡的稀疏比例，并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。

MoE 模型的性能通常可以用表现相同的稠密模型的总参数量和MoE 模型的激活参数量的比值来确定，此前业界在这一性能杠杆上的普遍水平为不到 3 倍。豆包团队通过模型结构和训练算法优化，在完全相同的部分训练数据（9T tokens）对比验证下，用激活参数仅为稠密模型参数量 1/7 的 MoE 模型，超过了稠密模型的性能，将性能杠杆提升至 7 倍。

图表5：Doubao-Dense、Doubao-MoE和Llama3-405B的性能对比

高性能推理系统：Doubao-1.5-pro是一个高度稀疏的 MoE 模型，在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中，表现出显著不同的计算与访存特征。针对Prefill/Decode 与 Attention/FFN 构成的四个计算象限中，表现出显著不同的计算与访存特征四个不同象限，豆包采用异构硬件结合不同的低精度优化策略，在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

图表6：不同阶段的计算和访存特征

豆包凭借自研服务器集群方案，灵活支持低成本芯片，硬件成本比行业方案大幅度降低。还通过定制化网卡和自主研发的网络协议，显著优化了小包通信的效率。在算子层面，实现了计算与通信的高效重叠（Overlap），从而保证了多机分布式推理的稳定性和高效性。

多模态方面，Doubao-1.5-pro 的视觉推理能力表现优越，在各类评测基准上均取得了优异表现。

图表4：Doubao-1.5-pro 在多个视觉基准上的测评结果

Doubao 深度思考模式探索智能的边界。豆包团队致力于使用大规模 RL 的方法不断提升模型的推理能力，拓宽当前模型的智能边界。通过 RL 算法的突破和工程优化，充分发挥test time scaling 的算力优势，完成了 RL scaling，研发了 Doubao 深度思考模式

阶段性进展Doubao-1.5-pro-AS1-Preview 在 AIME 上已经超过 O1-preview，O1 等推理模型。并且随着 RL 的持续，模型能力还在不断提升中。

我们认为豆包大模型的进展将加速字节在各领域的AI应用落地推广: 实时语音大模型有望加速国内其他情感陪伴类应用、AI玩具等智能终端的创新；Doubao-1.5-pro基础模型的全方位性能提升有利于各领域AI Agent的落地。同时豆包在推理侧的算力需求有望持续上涨，带动国内算力产业链增长。

2025年1月24日，OpenAI发布了Operator的研究预览，一个可以访问网络浏览器执行任务的Agent。OpenAI的总裁兼创始人Greg Brockman发帖称2025是Agent之年。

图表8：Brockman称2025是Agent之年

资料来源：X，国盛证券研究所

Operator是使用计算机的Agent (CUA)，该模型将 GPT-4o 的视觉功能与通过强化学习实现的高级推理相结合。经过训练，可以像人类一样与图形用户界面(GUI)（人们在屏幕上看到的按钮、菜单和文本字段）进行交互。这使它能够灵活地执行数字任务，而无需使用特定于操作系统或网络的 API。

CUA 建立在多模态理解和推理交叉领域多年的基础研究基础之上。通过将高级 GUI 感知与结构化问题解决相结合，它可以将任务分解为多步骤计划，并在出现挑战时自适应地自我纠正。此功能标志着 AI 开发的下一步，允许模型使用人类日常依赖的相同工具，并为大量新应用打开大门。尽管CUA仍处于早期阶段且存在局限性，但它创造了新的先进基准测试结果，在OSWorld上针对完整计算机使用任务的成功率为38.1%，在 WebArena 上针对基于 Web 的任务的成功率为 58.1%，在 WebVoyager 上针对基于 Web 的任务的成功率为 87%。这些结果凸显了 CUA 使用单一通用操作空间在不同环境中导航和操作的能力。

图表9：operator工作原理

资料来源：OpenAI官网，国盛证券研究所

CUA 处理原始像素数据以了解屏幕上发生的事情，并使用虚拟鼠标和键盘完成操作。它可以导航多步骤任务、处理错误并适应意外变化。这使得 CUA 能够在广泛的数字环境中运行，执行填写表格和浏览网站等任务，而无需专门的 API。根据用户的指令，CUA 通过集成感知、推理和动作的迭代循环进行操作：

感知：将计算机的屏幕截图添加到模型的上下文中，提供计算机当前状态的视觉快照。

推理：CUA 使用思路链推理后续步骤，同时考虑当前和过去的屏幕截图和操作。这种内心独白使模型能够评估其观察结果、跟踪中间步骤并动态调整，从而提高任务性能。

操作：执行操作（单击、滚动或键入），直到确定任务已完成或需要用户输入。虽然 CUA 会自动处理大多数步骤，但对于敏感操作（例如输入登录详细信息或响应 CAPTCHA 表单），CUA 会寻求用户确认。

以下可视化效果展示了 CUA执行各种任务的示例。

图表10：operator能力示例：下载讲座

资料来源：OpenAI官网，国盛证券研究所图表11：operator能力示例：合并pdf

图表12：operator能力示例：压缩图像

图表13：operator能力示例：计算价格

OpenAI称其计划探索的下一个挑战空间是扩展Agent的行动空间。通用界面提供的灵活性解决了这一挑战，使Agent能够浏览任何为人类设计的软件工具。OpenAI还在努力使 CUA 在API中可用，让开发人员可以使用它来构建自己的Agent。我们认为OpenAI在Agent上的进展将极大推动AI在各行业应用的落地。

星际之门计划投资5000亿美元打造AI基础设施

据BBC、OpenAI官网，美国总统特朗普在白宫宣布成立一家新公司，名为“星际之门计划（Stargate Project）”，计划在未来四年内投资 5000 亿美元，在美国为 OpenAI 建设新的人工智能基础设施。他称其为”迄今为止历史上最大的人工智能基础设施项目”，并表示这将有助于将“技术的未来”留在美国。

图表14：唐纳德·特朗普与 OpenAI、甲骨文和软银的老板一起宣布了星际之门项目

资料来源：BBC，国盛证券研究所

据OpenAI官网，OpenAI将立即开始部署 1000 亿美元。Stargate 的初始股权出资者包括软银、OpenAI、甲骨文和 MGX。软银和 OpenAI 是 Stargate 的主要合作伙伴，软银负责财务，OpenAI 负责运营。孙正义将担任董事长。

Arm、微软、NVIDIA、Oracle 和 OpenAI 是主要的初始技术合作伙伴。扩建工作目前正在进行中，从德克萨斯州开始，OpenAI正在评估全国各地的潜在地点，以建立更多园区，并最终确定最终协议。

作为 Stargate 的一部分，Oracle、NVIDIA 和 OpenAI 将密切合作，共同构建和运营该计算系统。这建立在 OpenAI 和 NVIDIA 自 2016 年以来的深度合作以及 OpenAI 和 Oracle 之间较新的合作伙伴关系的基础之上。

这也建立在 OpenAI 与微软现有的合作关系之上。随着 OpenAI 继续与微软合作，利用额外的计算能力来训练领先模型并提供出色的产品和服务，OpenAI 将继续增加对 Azure 的使用。

OpenAI表示：“我们所有人都期待继续构建和开发人工智能，尤其是通用人工智能，造福全人类。我们相信，这一新举措是这条道路上的关键一步，将使富有创造力的人能够弄清楚如何利用人工智能来提升人类。”

据BBC报道，微软计划今年投资800 亿美元建设以人工智能为重点的数据中心。它还参与了包括贝莱德和 MGX 在内的 1000 亿美元的合资企业，专注于进行 AI 数据中心投资。亚马逊也一直在向这些中心投入类似规模的资金，仅在过去两个月就宣布了两个价值约100 亿美元的项目。

麦肯锡报告中表示，到2030年，全球对数据中心容量的需求将增长两倍以上，每年增长率为19%至27%。该咨询公司估计，开发商为了满足这一需求，到2030年必须建造的容量至少是 2000 年以来已建成容量的两倍。

投资建议

来源：全产业链研究

标签： agent aiagent cua

本文地址：https://news.43u.com.cn/a/533334.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐