从AI Agent到Agentic AI:开源如何助力开发者解决行业痛点?

360影视 欧美动漫 2025-06-25 17:47 3

摘要:2025 年,全球开源软件项目数量稳定增长,总规模突破 5 亿个。在这一增长趋势中,中国企业的贡献尤为显著,据媒体报道,2025 年,中国开源项目数量已达 3000 万个,参与开源生态建设的企业数量正在持续增加。

作者 | 字节跳动开源

2025 年,全球开源软件项目数量稳定增长,总规模突破 5 亿个。在这一增长趋势中,中国企业的贡献尤为显著,据媒体报道,2025 年,中国开源项目数量已达 3000 万个,参与开源生态建设的企业数量正在持续增加。

2025 上半年,字节跳动开源了多个 AI 领域创新项目,鼓励开发者创新思考。在 6 月 12 日举办的字节跳动火山引擎 Force 原动力大会开源开发者日上,字节跳动开源委员会治理运营负责人石扬、AIBrix 项目负责人谢立广,DeerFlow 项目负责人李昕,UI-TARS 工程负责人金鑫,veRL 核心开发者陈海泉、童雨轩,ABCoder 项目负责人高文举,带来多个精彩主题分享,共同探讨开源为 AI Agent 带来的技术改变,以及前沿解决方案与实践经验。

1 实战落地:开源项目如何解决 AI Agent 行业痛点

当前 AI 技术发展迅速,但面临诸多挑战:资源利用效率低、推理成本高、系统可扩展性差、多模态数据处理复杂等 在这样的背景下,开源成为了解决这些问题的关键力量。开源的本质是共享,嘉宾们通过分享各自在大模型推理场景、开源强化学习框架、多模态与跨平台能力等方面的开源产品经验,展示了如何解决这些痛点的理念及实战经验。

首先,嘉宾们分享了如何提升大模型的强化学习能力。

为了让大模型在复杂场景中实现更优的强化学习效果,嘉宾们带来了大模型的强化学习范式和人机交互的提升策略:

veRL是由字节跳动 Seed-Infrastructures 团队发起并维护的一个开源强化学习框架,它旨在通过高效的训练流程和灵活的算法实现,支持多样的强化学习训练需求

veRL 产品核心开发者童雨轩提到,当我们想要把基于大语言模型的强化学习,实现成一个具体在设备上的计算的时候,需要照顾到多种多样的约束条件。veRL 发挥 Single Controller 的作用,将复杂数据流核心逻辑用简短代码描述,并支持多种 RL 算法,方便用户修改算法满足任务需求。

veRL 的调度范式采用 Hybrid Controller 范式的混合架构,融合了传统范式中 Single Controller 和 Multi Controller 的优势,有一个中心化的 Single Controller 来控制全局数据流动,将具体数据生成和计算交给 Operator,Operator 内部基于 Multi Controller 范式,既实现了数据流动调度的灵活性,弥补了传统范式中,Single Controller 中心控制节点压力大、通信成本高的问题,以及 Multi Controller 编程复杂、代码逻辑分散,影响编程效率的问题;又实现了大规模分布式计算的高效性。

(veRL 产品核心开发者童雨轩发表专题演讲《veRL:灵活高效的大型语言模型强化学习框架》)

DeerFlow 则是通过反馈不断改进自己的行动。DeerFlow 是一款专门为初学者设计的开源多智能体深度研究应用框架,项目负责人李昕提到,DeerFlow 拥有人机协作功能(Human in the Loop)功能,当向大模型提需求时,它会先给出它的任务拆解思考,点击“Edit Plan”(修改计划)就能对机器的规划做修改,无论是调整细节、补充信息还是重新定义方向,都能修改。当它解答完问题,人类也可以在 “human feedback”(反馈环节)向 AI 提出意见,对它说“步骤太简单了,你可以再加一个步骤”,大模型就会重新规划,并按照新的步骤继续执行。

其次,嘉宾们展现了如何实现多模态与跨平台支持。

在智能体技术栈中,多模态与跨平台能力正成为解决实际场景挑战的关键。字节跳动三款开源工具——UI-TARS、DeerFlow 与 ABCoder,分别从界面理解、内容生成和编程增强三个维度切入。

(UI-TARS 工程负责人金鑫发表专题演讲《基于 UI-TARS 的 GUI Agent 实践》)

UI-TARS 是字节跳动开源推出的一种能够自我学习的 GUI Agent、一代原生 GUI 代理模型,旨在使用类似人的感知、推理和操作功能与图形用户界面(GUI)无缝交互。UI-TARS 将所有关键组件——感知、推理、反思、记忆集成在一个视觉语言模型(VLM)中,实现端到端任务自动化,无需预定义的工作流或手动规则。它能够像人一样“看”懂界面,天然跨平台且抗界面变动。

UI-TARS 工程负责人金鑫介绍称,UI-TARS 采用纯视觉感知技术,直接通过屏幕截图理解界面,无需依赖 API 或解析底层代码。例如,让它执行识别小票并把小票内容整理到 Excel 里的任务,它可以将识别小票的设备远程连到火山的虚拟机上,在上下文环境中找到小票,并以纯视觉的方式把小票内容自主整理到 Excel 里。

(DeerFlow 项目负责人李昕发表专题演讲《DeerFlow —— 基于 LangStack 的 DeepResearch》)

DeerFlow 是一款专门为初学者设计的开源多智能体深度研究应用框架,基于 LangChain 和 LangGraph 框架构建,并支持通过 MCP 服务扩展功能。除了生成深度研究报告,它还支持播客脚本、PPT 演示文稿等多种内容形式的生成,满足不同场景需求。

此外,它还集成了网络搜索、学术资源检索(如 Arxiv)、爬虫和 Python 代码执行等多种工具,为研究人员提供了全面支持。这些工具的集成使得 DeerFlow 在处理复杂的多模态内容生成任务时表现出色,极大地提升了研究效率和内容生成的质量。

在 AIGC 浪潮席卷技术领域的今天,字节跳动研发的 ABCoder 编程增强方案正掀起一场静默的技术革命。这个开源项目不仅解决了大语言模型在复杂编程场景中的“认知困境”,更开创性地构建了编程语义的标准化表征体系。

大语言模型在处理多层逻辑嵌套、高阶算法设计及系统架构规划时,普遍面临三个核心挑战:

上下文窗口限制导致的代码片段割裂理解

传统文件检索方式的结构化认知缺失

语义检索困难造成的知识复用瓶颈

ABCoder 通过构建 UniAST(统一抽象语法树)体系,创造性地将编程项目抽象为三维坐标系:

结构维度:保留传统 AST 的结构化层级

语义维度:注入语义化锚点与控制流分析

时空维度:记录多仓互联与依赖关系

这种创新的表征方式为大语言模型带来了全方位的编程上下文扩充。

ABCoder 通过一套通用编程语言接入规范,支持多语言灵活扩展,当前已内置 Golang、Rust、Kotlin、TypeScript、C、Python 等主流语言解析器。在字节内部,基于 ABCoder 已经落地的应用包括 RepoTalk(多维度项目说明书)、半空(编程语言互译)。其中,RepoTalk 的高维度项目说明书基本完全涵盖 DeepWiki 的知识呈现;半空在字节内部已完成 Go2Rust、Kotlin2Typescript 项目辅助迁移的落地,综合提效显著。更为通用的,ABCoder 针对仓库的结构化理解元能力正在作为一个新兴的基础设施,服务于大语言模型时代越来越多的上层应用。

针对大模型部署中资源调度难、响应慢等制约企业效能的关键瓶颈,嘉宾也提出了解决方案。

(AIBrix 项目负责人谢立广发表专题演讲《AIBrix:基于 vLLM 的高性价比 LLM 推理加速方案》)

传统的 Kubernetes 容器编排平台在遇到大语言模型推理场景时,它自动伸缩的机制会遇到诸多挑战,如扩缩容指标选择困难,常用的 QPS 和 GPU usage 指标在大模型推理中不适用,不同长度的 LLM 请求资源消耗差异大。

AIBrix 项目负责人谢立广提出了解决方案,即采用 TTFT、TPOT 等更精细化的专用扩缩容指标,从而实现更合理的自动扩缩容判断。同时,设计基于异构 GPU 的自动扩缩容方案,让不同价位的 GPU 处理不同范围的 request,并优化 LoRa 和路由的管理,使得资源利用率提升 40% 以上,显著降低了成本。在提升性能方面,通过全栈优化集成 KVCache 多级卸载、PD 分离等技术,显著提升系统的响应速度和性能。

作为针对大模型推理场景设计的基于 Kubernetes 云原生系统,AIBrix 通过优化资源管理和计算效能来提升效率,并致力于解决 LLaMA、DeepSeek 等开源模型在生产部署中的关键挑战。

2 开源助力 AI Agent 的技术突破与生态构建

在“开源助力 AI Agent 的技术突破与生态构建”圆桌论坛上,嘉宾们对于开源的初衷以及未来的远景展开了讨论。他们通过开源推动了技术进步、提升了用户体验,并显著扩大了产品影响力。

毫无疑问的是,开源推动着 AI 产品的技术创新,为用户带来更丰富的体验。

veRL 核心开发者陈海泉称,veRL 开源的目的是为了提供一个灵活高效的强化学习框架,帮助更多开发者和企业更好地应用强化学习技术。veRL 已经发展成为一个活跃的开源社区,有来自不同领域的公司以及个人的贡献者一起在 veRL 开发新技术,让来自各种行业的用户能更方便地使用上强化训练来提高自己模型的能力。

到目前为止,veRL 在 GitHub 已积累了 9900+stars,1600+forks,接近 1300 个 PRs ,超过 240 个 contributors。

开源不仅推动企业技术进步,还提升着用户的体验。UI-TARS 工程负责人金鑫称,仅通过自己的力量很难把各个设备和操作建立得非常完善,这需要整个生态和厂商一起来共建整个操作层,让 AI 可以更好地通过视觉来操作所有的电设备,共建生态。同时,开源能给用户带来一种安全感和透明感,增加用户的信任。

UI-TARS 自 2025 年初在 GitHub 开源以来,收获了 1.4 万 Stars,开源使得 UI-TARS 能够不断优化和扩展功能,UI-TARS-1.5 在游戏中的表现尤为突出,不仅在多个小游戏测试中展现了稳定的推理和交互能力,还在《我的世界》等开放环境中验证了其动态决策能力。

与此同时,开源也成为提升产品影响力的关键驱动力。

DeerFlow 项目负责人李昕提到,开源的初衷是为了帮助初学者从零开始构建深度研究项目,降低入门门槛。 DeerFlow 在 GitHub 上线仅 7 天便收获 1 万 Stars,现已达到 1.3 万 Stars,成为字节跳动开源社区中时下最热门的项目。LangChain 作者 Harrison 和 LangChain 官方账户三次转发相关推文,称赞界面漂亮、实现简单。

AIBrix 项目负责人谢立广称,从今年 2 月开源至今,收获了 50 多个社区的开源贡献者参与项目的发展,项目已吸引了包括 AWS 等众多行业领军企业合作,已成功集成至 AWS EKS 服务并支持在 AWS Trainium 和 Inferentia AI 芯片上运行。同时项目也和 Google、RedHat 在 Kubernetes 社区合作。AIBrix 的目标是与众多厂商和开源社区合作,为构建下一代 AI 推理基础设施提供大规模的生产级别的开源解决方案。

开源通过共享代码、经验与解决方案,让全球开发者得以共同加速 AI 技术的进化与落地。从 AIBrix 的高效推理调度到 UI-TARS 的跨平台视觉交互,从 DeerFlow 的低门槛研究框架到 veRL 的分布式强化学习引擎,字节跳动的开源实践项目不仅显著降低了开发成本,更通过社区协作不断突破技术边界。当开源打破技术壁垒,创新便从“闭门造车”走向“众行致远”,大众期待的 AI 开源新时代才刚刚拉开序幕。

当前,字节跳动开源生态已覆盖大模型推理、强化学习、多模态交互等前沿领域。如果您对这些开源项目感兴趣,想深入了解其技术细节和应用场景,可以访问以下链接:

AIBrixhttps://github.com/vllm-project/aibrix

UI-TARShttp://github.com/bytedance/UI-TARS-desktop

DeerFlowhttps://github.com/bytedance/deer-flow

veRLhttps://github.com/volcengine/verl

ABCoderhttps://github.com/cloudwego/abcoder

来源:InfoQ

相关推荐