摘要:Patronus AI 今日推出了一款全新的监控平台,该平台能够自动识别 AI 代理系统中的故障,旨在应对企业在这些应用变得越来越复杂时对可靠性的担忧。
Patronus AI 今日推出了一款全新的监控平台,该平台能够自动识别 AI 代理系统中的故障,旨在应对企业在这些应用变得越来越复杂时对可靠性的担忧。
这家位于旧金山的 AI 安全初创公司推出的新产品 Percival,自称是首个能够自动识别 AI 代理系统中各种故障模式并提出相应优化方案的解决方案。
“Percival 是业内首个能够自动检测代理系统中多种故障模式,并系统性地提出修复和优化建议的解决方案,” Patronus AI 的首席执行官兼联合创始人 Anand Kannappan 在接受 VentureBeat 独家采访时表示。
AI 代理可靠性危机:为何企业正在失去对自主系统的控制
企业对 AI 代理(能够独立规划和执行复杂多步骤任务的软件)的采用在最近几个月内急速增加,这为企业在确保这些系统大规模可靠运作时带来了新的管理挑战。
不同于传统的机器学习模型,这些基于代理的系统往往涉及冗长的操作序列,早期环节中的错误可能会对后续流程产生重大影响。
“就在几周前,我们发布了一个模型,用来量化代理发生故障的可能性以及可能对品牌、客户流失等造成的影响,” Kannappan 表示。“我们观察到代理不断累积的错误概率问题。”
这一问题在多代理环境中尤为严重,不同 AI 系统之间的相互交互使得传统的测试方法越来越难以应对。
情景记忆创新:Percival 的 AI 代理架构如何革新错误检测
Percival 通过其基于代理的架构以及公司所称的“情景记忆”能力——即从以往错误中学习并适应特定工作流程——与其他评估工具区分开来。
该软件能够在四大类别中检测超过 20 种不同的故障模式,分别为推理错误、系统执行错误、规划与协调错误以及特定领域错误。
“不同于将 LLM 作为评判者,Percival 本身就是一个代理,因此它可以跟踪整个过程中发生的所有事件,” Patronus AI 的研究员 Darshan Deshpande 解释道。“它能够对这些事件进行关联,并在不同情境下发现这些错误。”
对于企业来说,最直接的好处在于大大减少调试时间。根据 Patronus 的数据,早期客户已经将分析代理工作流程所需的时间从大约一小时缩短到 1 至 1.5 分钟之间。
TRAIL 基准测试揭示了 AI 监督能力的关键缺口
在产品发布的同时,Patronus 还发布了一项名为 TRAIL(Trace Reasoning and Agentic Issue Localization)的基准测试,用于评估系统在检测 AI 代理工作流程问题方面的表现如何。
使用该基准测试的研究表明,即便是最先进的 AI 模型在进行有效的轨迹分析时也存在困难,表现最好的系统在该基准测试中的得分仅为 11%。
研究结果突显了监控复杂 AI 系统的挑战性,并解释了为何大型企业正在为 AI 监督投资专门的工具。
企业 AI 领导者采用 Percival 应对关键任务代理应用
早期采用者之一包括 Emergence AI,该公司已筹集约 1 亿美元资金,并正在开发让 AI 代理能够创建和管理其他代理的系统。
“Emergence 最近的重大突破——代理创造代理,不仅标志着自适应、自我生成系统演进的一个关键时刻,也预示着此类系统在如何被合理监管和扩展上将迎来新的局面,” Emergence AI 的联合创始人兼首席执行官 Satya Nitta 在发给 VentureBeat 的声明中表示。
另一位早期客户 Nova 正采用该技术开发一套平台,帮助大型企业通过 AI 驱动的 SAP 集成迁移遗留代码。
这些客户正是 Percival 所旨在解决的难题的典型案例。Kannappan 表示,目前一些公司已经开始管理“单个代理目录中包含超过 100 个步骤”的代理系统,其复杂性大大超出了人类操作员能够高效监控的范围。
随着自主系统的日益普及,企业对 AI 监督的市场正迎来爆炸式增长
此次发布正值企业对 AI 可靠性和治理的担忧日益加剧之际。随着企业部署越来越多的自主系统,对监督工具的需求也在成比例增加。
“挑战在于系统正变得越来越自主,” Kannappan 指出,并补充道“每天有数十亿行代码在由 AI 自动生成”,这样的环境让人工监管几乎不可能实现。
随着企业从实验性部署向关键任务 AI 应用转型,针对 AI 监控和可靠性工具的市场预计将大幅扩张。
Percival 可与多个 AI 框架集成,包括 Hugging Face Smolagents、Pydantic AI、OpenAI Agent SDK 和 Langchain,使其能够兼容多种开发环境。
尽管 Patronus AI 并未披露定价或收入预测,该公司对企业级监督工具的专注表明,其正定位于高利润企业 AI 安全市场,而分析师预测该市场将随着 AI 采用加速而大幅增长。
来源:至顶网