大模型的未来,是智能体还是超级应用?

360影视 动漫周边 2025-03-09 18:11 1

摘要:以上为基础模型包括OpenAI,Anthropic,Meta,Gemini以及DeepSeek,Qwen,GLM,Kimi,零一,百川,Mistral等基础模型的视角。这些视角和观点基本也来自基础模型为个人消费者提供AI助手的思路和产品策略。这也是到目前为止A

:我们相信,当前阶段是AI技术创新的爆炸式增长,还不是应用的爆炸式增长。只在应用程序上工作就像“与上一场战争的将军一起打下一场战争”。

lOpenAI说深度研究科学家(Deep Research)其实是一个垂类基础推理模型,它基于o3训练,但不是o3加一堆工作流。

lAnthropic对智能体的定义是:智能体必须在内部执行目标任务,而不是依赖外部的工作流。

l谷歌对智能体的定义是一种运行环境下基于基础模型外加任务编排(包括目标、规划、分解、记忆及推理等)及外部工具函数调用。

l在强化学习RL时代,给模型一个封闭的环境和奖励,模型就可以学会这个环境的生存法则。

l强化学习RL可以让大模型+工作流演变变为内聚的智能体,可以完成端到端的任务。

如果基础模型公司已经可以完成端到端任务,是不是基础模型本身就是应用App?这是否可行和可能?

以上为基础模型包括OpenAI,Anthropic,Meta,Gemini以及DeepSeek,Qwen,GLM,Kimi,零一,百川,Mistral等基础模型的视角。这些视角和观点基本也来自基础模型为个人消费者提供AI助手的思路和产品策略。这也是到目前为止AI模型厂商的主流想法,基础模型和AI智能体为个人生产力及创意赋能。

那么企业和组织机构的智能体应该如何构建?过去的四十年数千万家企业已经有基于结构化数据构建了企业数字化基础设施包括ERP、CRM、SCM、E-commerce、HR以及业务中台、数据中台等等,企业及组织机构是需要重新构建崭新的AI数字化平台还是用智能体一步步优化改造现有数字化系统,改良优化来个全新的企业级新架构等等,无论从企业业务架构,技术架构或者成本预算及资产等角度都是需要探讨的重要话题和方向。目前能够有企业Enterprise视角的只有加拿大的AI初创公司Cohere。尝试构思一张企业级智能体的概念图,集成企业现有数字化资产。

以下为RAG智能体创业公司的Alexander Doria观点原文,当然只代表他个人观点,一些点比较激进。

目录

1模型就是产品

2即将到来的模型的形状

3训练或正在接受训练

4强化学习没有被定价

1 模型就是产品

作者:Alexander Doria,RAG Agent的联合创始人

在过去的几年里,关于人工智能发展的下一个周期可能是什么,有很多猜测。智能体?推理者?实际的多模态?

我认为是时候称之为:模型就是产品。

当前研究和市场开发中的所有因素都朝着这个方向发展。

1.通才扩展正在停滞不前。这就是GPT-4.5发布背后的全部信息:容量呈线性增长,而计算成本呈几何曲线。即使过去两年在训练和基础设施方面取得了所有效率的提高,OpenAI也无法以远程实惠的价格部署这个巨大的模型。

2.固执己见的训练效果比预期的要好得多强化学习和推理的结合意味着模型突然变成了学习任务。它不是机器学习,也不是基础模型,它是秘密的第三件事。即使是微小的模型也突然变得数学高得可怕。它的编码模型不再只是生成代码,而是自己管理整个代码库。这是Claude在玩Pokemon时,上下文信息非常糟糕,也没有专门的训练。

3.推理成本呈自由落体状态。DeepSeek最近的优化意味着所有可用的GPU都可以满足每天10k个令牌的需求,来自前沿模型......整个地球人口。没有这种水平的需求。出售Token的经济性对模型提供商来说不再有效:他们必须在价值链中处于更高的位置。

这也是一个令人不安的方向。现在所有投资者都押注于应用层。在AI演进的下一阶段,应用层很可能是第一个被自动化和颠覆的层。

在过去的几周里,我们看到了新一代模型作为产品的两个主要例子:OpenAI的DeepResearch和Claude Sonnet 3.7。

我读到了很多关于DeepResearch的误解,开放克隆和封闭克隆的乘以对此没有帮助。OpenAI尚未在O3之上构建包装器。他们训练了一个全新的模型DeepResearch,能够在内部执行搜索,而无需任何外部调用、提示或编排:

该模型学习了核心浏览功能(搜索、点击、滚动、解释文件)(...),以及如何通过对这些浏览任务的强化学习训练来推理合成大量网站以查找特定信息或编写综合报告。

DeepResearch不是一个标准的LLM,也不是一个标准的聊天机器人。这是一种新形式的研究语言模型,明确设计用于端到端执行搜索任务。每个认真使用它的人都会立即感受到这种差异:该模型会生成具有一致结构和底层源分析过程的冗长报告。相比之下,正如Hanchung Lee所强调的那样,所有其他DeepSearch,包括Perplexity和Google变体,都只是你通常的模型,只是有一些变化:

GoogleGeminiPerplexity的聊天助手也提供“深度研究”功能,但都没有发表任何关于他们如何为任务优化模型或系统的文献,也都没有发表任何后续定量评估的文献(......我们将假设所做的微调工作是非实质性的。

Anthropic一直在使他们目前的愿景更加清晰。12 月,他们引入了一个有争议但在我看来正确的智能体模型定义。与DeepSearch类似,智能体必须在内部执行目标任务:他们动态指导自己的流程和工具使用,保持对完成任务方式的控制

大多数智能体初创公司目前正在构建的不是智能体,而是工作流程,即通过预定义的代码路径编排LLM和工具的系统工作流可能仍会带来一些价值,尤其是对于垂直细分领域适应。然而,对于目前在大型AI实验室工作的人来说,很明显,自主驾驶系统的所有重大进展都将首先通过重新设计模型来实现。

我们在Claude 3.7的发布中对此进行了非常具体的演示,该模型主要针对复杂的代码用例进行训练。所有像Devin这样的工作流程调整都对SWE基准测试有很大的提升。

再举个小得多的例子:在Pleas,我们目前正在实现RAG的自动化。当前的RAG系统有很多相互关联但脆弱的工作流程:路由、分块重新排序、查询解释、查询扩展、源上下文化、搜索工程。随着训练技术堆栈的不断发展,将所有这些过程捆绑在两个独立但相互关联的模型中具有真正的潜力,一个用于数据准备,另一个用于搜索/检索/报告生成。这需要一个精心设计的合成流水线和全新的强化学习奖励函数。实际训练,实际研究。

这一切在实践中意味着:取代复杂性。训练可以预测各种作和边缘情况,因此部署变得更加简单。但在这个过程中,大部分价值现在都被创造出来了,并且可能最终由Model trainer捕获。简而言之,Claude旨在打碎和替换当前的工作流程,例如来自llama index的基本智能体系统:

3 训练或正在接受训练

重申一下:大型AI实验室并没有带着隐藏的议程前进。虽然它们有时可能是不透明的,但它们将一切都公开化:他们将捆绑,他们将进入应用程序层,他们将尝试在那里捕获大部分价值。商业后果非常明显。Databricks的Gen AI副总裁Naveen Rao说:

所有已封闭的AI模型提供商将在未来2-3年内停止销售API。只有开放模型才能通过API获得(...)封闭模型提供商正在尝试构建非商品功能,他们需要出色的UI来提供这些功能。它不再只是一个模型,而是一个具有特定用途的UI的应用程序。

所以现在发生的事情只是大量的否认。模型提供商和Package之间的蜜月期已经结束。事情可能会朝着两个方向发展:

1. Anthropic的Claude Code和OpenAI的DeepSearch是朝着这个方向的早期技术和产品实验。您会注意到,DeepSearch不能通过API使用,仅用于为高级订阅创造价值。Claude Code是一个极简的终端集成。奇怪的是,虽然Claude 3.7在Claude Code中运行良好,但Cursor却在努力应对它,我已经看到一些高端用户因此取消订阅。实际的LLM智能体并不关心预先存在的工作流程:它们会取代它。

2. 最知名的Package供应商现在正在争先恐后地成为混合AI训练公司。他们确实有一些训练能力,尽管很少做广告。Cursor的主要资产之一是他们的小型自动完成模型。WindSurf有他们内部的廉价代码模型Codium。Perplexity一直依赖主分类器进行路由,最近转而训练自己的DeepSeek变体以进行搜索。

3. 对于较小的Packge供应商,不会有太大变化,除了如果大型实验室完全放弃这个市场,可能会增加对不可知论推理提供商的依赖。我还希望看到更多地关注UI,而UI仍然被大大低估了,因为更通用的模型可能会捆绑常见的部署策略,尤其是对于RAG。

简而言之,大多数成功的智能体套装(Package)面临的困境很简单:训练或接受训练。他们现在所做的既是为大型实验室提供免费的市场研究,而且,由于所有输出最终都是通过模型提供商生成的,因此可以免费设计和生成数据。

之后会发生什么,谁也说不准。成功的Package确实具有充分了解其垂直领域并积累大量宝贵用户反馈的优势。然而,根据我的经验,从模型到应用程序层比从头开始构建全新的训练能力更容易。Wrappers可能也没有得到投资者的帮助。从我无意中听到的情况来看,对训练存在如此负面的两极分化,他们几乎不得不隐藏他们最关键的价值:目前,光标小和镫都没有得到适当的记录。

4 强化学习没有被定价

这让我想到了真正痛苦的部分:目前所有的AI投资都是相关的。风险投资在以下假设下运作:

1.真正的价值完全在于独立于模型层的应用层,而模型层最有可能颠覆现有市场。

2. 模型提供商只会以越来越低的价格出售Token,从而使Package更有利可图。

3. 封闭基础模型Package将满足所有现有需求,即使在长期关注外部依赖关系的受监管部门也是如此。

4.建立任何训练能力都只是浪费时间。这不仅包括预训练,还包括所有形式的后训练。

恐怕这越来越像是一个冒险的赌注,实际上是市场未能准确定价最新的技术发展,尤其是在强化学习RL在当前的AI经济生态系统中,风险投资旨在寻找不相关的投资。他们不会跑赢标准普尔500指数,但这不是大型机构投资者所寻找的:他们想捆绑风险,确保在糟糕的一年里至少会解决一些事情。模型训练就像一个教科书上的完美例子:在大多数西方经济体都处于衰退轨道的背景下,存在很大的颠覆潜力。然而,模型训练工程师不能加薪,或者至少不能以通常的方式加薪。Prime Intellect是为数不多的具有明显潜力成为前沿实验室的新西方人工智能训练公司之一。然而,尽管他们取得了成就,包括训练了第一个去中心化的LLM,但他们仍然难以筹集到比通常的Package更多的资金。

除此之外,除了大型实验室之外,目前的训练生态系统非常小。你可以数出你手上的所有公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace预训练团队(实际上很小)......他们与其他一些学术参与者(Allen AI、Eleuther等)一起构建和支持当前大多数用于培训的开放式基础设施。在欧洲,我知道至少有7-8个LLM项目将集成Common Corpus和我们在Pleias开发的一些预训练工具——其余的将是fineweb,可能还有来自Nous或Arcee的训练后教学集。

目前的融资环境存在严重问题。甚至OpenAI现在也感觉到了。最近,人们对当前硅谷创业环境中缺乏“垂直RL”感到恼火。我相信这条信息直接来自Sam Altman,可能会导致下一届YC考试进行一些调整,但要确定一个更大的转变:很快,大型实验室选择的合作伙伴将不再是API客户,而是参与早期培训阶段的相关承包商。

如果模型是产品,则不一定能单独构建它。搜索和代码是容易实现的唾手可得的成果:两年来的主要用例,市场已接近成熟,您可以在几个月内发布新光标。现在,未来许多最有利可图的AI用例并不处于这个高级发展阶段——通常,想想所有这些仍然统治着世界经济大部分的基于规则的系统......具有交叉专业知识和高度关注的小型专业团队可能最适合解决这个问题——一旦初步的基础工作完成,最终成为潜在的收购者。我们可以在UI端看到相同的管道。一些首选的合作伙伴,获得对关闭专业模型的独家API访问权限,前提是他们踏上了业务收购之路。

到目前为止,我还没有提到DeepSeek,也没有提到中国的实验室。仅仅因为DeepSeek已经更进一步了:不是作为产品进行建模,而是作为一个通用的基础设施层。与OpenAI和Anthropic一样,连文峰也公开了他的计划:

我们相信,当前阶段是技术创新的爆炸式增长,而不是应用的爆炸式增长...)。如果形成了完整的上下游产业生态圈,那我们就不需要自己去做应用了。当然,如果需要,我们提出申请没有任何障碍,但研究和技术创新永远是我们的首要任务。

在这个阶段,只在应用程序上工作就像“与上一场战争的将军一起打下一场战争”。恐怕我们正处于许多西方人甚至不知道最后一场战争已经结束的地步。

来源:人工智能学家

相关推荐