摘要:如果 OpenAI 首席财务官 Sarah Friar 的描述属实,OpenAI 正在开发的一款新的 AI 智能体必将在业界引起不小的轰动。
OpenAI 即将发布 A-SWE,这款 AI 智能体能够执行软件工程任务,且拥有质量保证和代码缺陷测试能力。
然而,此前关于 AI 能力的说法往往被夸大,导致人们对这类模型的真正潜力产生了怀疑。
如果 OpenAI 首席财务官 Sarah Friar 的描述属实,OpenAI 正在开发的一款新的 AI 智能体必将在业界引起不小的轰动。
Sarah Friar
Friar 最近证实,ChatGPT 即将发布其第三款 AI 智能体:A-SWE(即智能体软件工程师)。它不仅能够执行普通软件工程师能够完成的任务,还能够执行其他的额外任务,比如质量保证、代码缺陷测试和代码缺陷修复。
Friar 在与高盛公司交谈时表示:“即将推出的第三款(AI 智能体)是我们所说的 A-SWE …… 智能体软件工程师。它不仅仅可以提升员工队伍中现有软件工程师的能力(就像我们今天借助 Copilot 所做的那样),更是真正意义上的智能体软件工程师,可以替您全面开发应用程序。”
Friar 补充道:“它可以拿来你会交给任何其他工程师的合并请求(PR)进行开发。但它不仅能开发,还能做所有软件工程师讨厌做的所有事情。它自己就能做质量保证、做代码缺陷测试和做代码缺陷修复,还能做说明文档编制,这些是你不会让软件工程师做的事情。突然之间,你可以大大提升软件工程师队伍的工作能力了。”
OpenAI 于今年 1 月推出了其首款 AI 智能体:Operator,随后于 2 月推出了 Deep Research,这两款 AI 产品目前仅对 ChatGPT 的付费用户开放。
为什么眼下你不必惊慌失措 ?
OpenAI 历来喜欢大肆吹嘘其产品,但有些产品从未变为现实。
以 Deep Research 为例,在发布时,OpenAI 号称这款新工具能够取代研究助理 —— Friar 在周五重申了这一说法。
虽然 OpenAI 的许多同行(包括 xAI 和 Perplexity)都已推出了类似的工具,但这些 AI 模型究竟能在多大程度上真正接管研究助理的工作目前仍不清楚。
原因何在?它们仍然容易产生幻觉,即自信地生成根本不是真实的信息。
问题不在于这些大语言模型不准确 —— 毕竟,人类也会犯错。
比较令人担忧的是,这些模型以绝对自信的态度提供虚假信息,因而使得用户更难区分信息的真伪。
自 2022 年底 ChatGPT 首次向公众推出以来,这种情况并没有发生太大的变化。
因此,当 OpenAI 声称其即将推出的 AI 智能体将能够完成当前软件工程师所做的所有工作、甚至完成更多的工作时,请谨慎对待,切勿盲目相信。
来源:大单一点号