生成式AI推理技术、市场与未来

摘要：DeepSeek R1-Lite-Preview的相继发布，预示着生成式AI研究正从预训练转向推理（Inference），以提升AI逻辑推理（reasoning）能力，这一转变将极大推动上层应用的发展。

DeepSeek R1-Lite-Preview的相继发布，预示着生成式AI研究正从预训练转向推理（Inference），以提升AI逻辑推理（reasoning）能力，这一转变将极大推动上层应用的发展。

红杉资本近期指出

，在可预见的未来，逻辑推理和推理时计算将是一个重要主题，并开启生成式AI的下一阶段。新一轮竞赛已然开始。

那么，在推理这一新兴市场，哪些企业占据了生态位？他们如何满足应用层的需求？市场格局又将如何变化？风险投资专家Eric Flaningam在本文中作了深刻分析和可能性预测。其中，有一点是明确的：推理市场的发展取决于AI应用程序的规模和形态。因此，对于专注提供推理服务的企业而言，对应用层变化的感知与需求抽象变得尤为重要。

（本文由OneFlow编译发布。原文：https://substack.com/@ericflaningam/p-152106163）

作者：Eric Flaningam

编译：OneFlow

题图由SiliconCloud平台生成

随着 OpenAI o1 发布，推理（inference）终于进入了我们过去一年来一直期待的聚光灯下。英伟达CEO黄仁勋曾说：“推理的规模将会比今天大十亿倍。”（顺便说一句：从查询数量的角度来看，这可能是真的，但如果推理确实占到了英伟达收入的40%，这个说法在收入上是不可能实现的。）

借助 o1，推理首次构成了模型总计算中有意义的一部分。

来源：

它指出了一个新的潜在规模定律，即模型“思考”的时间越长，其准确性就越高。Stratechery（https://stratechery.com/2024/enterprise-philosophy-and-the-first-wave-of-ai/）对这一性能的提升描述得很好：

o1 被明确训练为如何解决问题，其次，o1 被设计成在推理时生成多个问题解决流，选出最佳方案，并在意识到出错时迭代每个步骤。这就是为什么它能解开填字游戏——只是花了很长时间。

上个月，Anthropic 宣布了“计算机使用（Computer Use）”功能，使模型能够像人类一样与计算机互动。这表明，人工智能应用将变得越来越复杂，进而导致推理量的增加。

两个因素使这个市场特别有趣：计算成本的降低和该领域的激烈竞争。

来源：

随着推理成本的降低，市场规模的迅速扩大，以及该领域的竞争加剧，这个市场为人工智能提供了一个非常有趣的案例研究。

本文将深入探讨当前的形势，决定市场走向的变量，以及基于这些变量价值如何在生态系统中流动。

明确地说，推理是一个新兴市场，这个领域非常拥挤且变化迅速。我们目前拥有的最佳推理性能指标是第三方基准测试（如果你有更准确的数据，欢迎随时联系我们）。

推理的背景

首先，推理提供了一个比训练更加开放的竞争市场。在训练过程中，通过大量数据集的迭代来创建一个表示复杂场景的模型，而推理则是将新数据输入该模型以进行预测的过程。

来源：

一些关键差异在推理中尤为重要：

延迟与位置至关重要：由于推理会为终端用户运行工作负载，响应速度至关重要，这意味着在边缘或边缘云环境中进行推理可能比训练更有意义。相比之下，训练可以在任何地方进行。

可靠性的重要程度（稍微）降低：训练前沿模型可能需要数月时间，并且需要大规模的训练集群。训练集群的相互依赖性意味着集群中一个部分的错误可能会减缓整个训练过程。而在推理过程中，工作负载要小得多，且相互依赖性较低；如果发生错误，只有单个请求受到影响，并且可以快速重新运行。

硬件可扩展性的重要程度降低：Nvidia 的一个关键优势在于其通过软件和网络优势扩展更大系统的能力。在推理方面，这种可扩展性的重要程度较低。

这些原因共同解释了为什么许多新的半导体公司专注于推理，因为进入门槛相对较低。

需要指出的是，虽然“推理”是一个广泛描述模型实际使用情况的术语，但它涵盖了各种类型的机器学习模型。我的同事在这里写到了近年来 ML 部署方式的变化。这里展示了不同工作负载的性能差异：

2 当前的推理市场概览

企业运行推理有很多选择。从最易于管理且定制化程度最低到最难管理但定制化程度最高的选项，企业有以下几种选择进行推理：

基础模型 API：来自 OpenAI 等模型提供商的 API。最简单且灵活性最低的选项。

推理服务提供商：专门的推理服务提供者，如 Fireworks AI 和 DeepInfra，旨在优化跨各种云和硬件提供商的成本，是运行和定制开源模型的良好选择。

AI 云：来自 Coreweave 和 Crusoe 等公司的 GPU 或推理即服务，企业可以租用算力并根据需要进行定制。

超大规模云厂商：超大规模云厂商提供计算能力、推理服务和平台，企业可以在这些平台上开发专用模型。

AI 硬件提供商：企业用自己的 GPU 并根据特定需求进行优化。

附加信息1：从 API 到 AI 硬件——像 Groq、Cerebras 和 SambaNova 这样的公司已经开始提供推理云服务，使客户能够以推理 API 的形式利用其硬件。Nvidia 收购了推理服务提供商 OctoAI，据推测是为了创建自己的推理服务。

附加信息2：边缘推理——Apple、Qualcomm 和 Intel 希望提供硬件和软件，使推理能够直接在设备上进行。

鉴于基础模型 API 很简单（企业从基础模型提供商调用 API 并按需付费）。我将从推理提供者开始介绍。

3 推理提供商

数家公司在提供推理服务方面崭露头角，他们抽象化了管理硬件的需求。这些公司中最著名的是像 Fireworks AI、Together、Replicate 和 DeepInfra 这样的推理初创公司。Kevin Zhang 在这里很好地描述了这些公司：

像 Replicate、Fireworks AI 和 DeepInfra 这样的 API-only 初创公司已经完全抽象化了所有复杂性，使得模型可以通过 API 调用访问。这类似于 OpenAI 等基础模型提供商为开发者提供的使用体验。因此，这些平台通常不允许用户自定义选择用于特定模型的 GPU 等。不过，Replicate 有 Cog 用于部署自定义模型等任务。

与此同时，Modal 和 Baseten 提供了一种介于两者之间的体验，开发者有更多的“调节旋钮”来控制他们的基础设施，但仍然比构建自定义基础设施更容易。这种更细粒度的控制使 Modal 和 Baseten 能够支持超出简单文本补全和图像生成的使用场景。

这些提供商的最明确用例是为开源模型提供推理服务，使企业能够使用该模型构建应用程序。推理提供商使用各种技术，尽可能地优化成本。

在选择推理提供商时，最终考虑因素主要是成本/性能的计算，包括推理成本、延迟（首次输出时间和各输出之间的时间）和吞吐量（处理需求的能力）。我们对价格有一些了解：

现在，过去几个月的一个有趣变化是硬件供应商开始进军推理领域。Nvidia 收购了推理提供商 OctoAI，可能是为了提供类似的服务。我们可以看到有三家硬件供应商提供了市场上最快的推理服务：

一如既往，应对基准测试结果持保留态度。根据Irrational Analysis

（https://irrationalanalysis.substack.com/p/cerebras-cbrso-equity-research-report），Cerebras 不提供 Llama 405B，可能是因为其成本不合理。特定的设置可以实现这些结果，但它们可能与其他模型不兼容，或在生产使用场景中不实用。

大多数公司的投资回报率（ROI）计算将是总拥有成本/性能的比值，而这是在行业生命周期的这个阶段很难获得的数据。

我会指出，像 Coreweave、Crusoe 和 Lambda 这样的 AI 云都提供推理服务。超大规模云厂商也是如此！Kevin Zhang 还推测，数据平台和应用程序基础设施提供商也可能扩展到推理领域：

来源：

在这种竞争环境下，公司要么需要提供有意义的架构差异、基于推理解决方案的开发工具或通过垂直整合实现成本优势，以创造有意义的差异化。

4 硬件提供商

上述推理提供者抽象了管理底层硬件的复杂性。对于许多大型 AI 公司来说，管理自己的硬件是有意义的。这包括基础设施设置（安装、数据中心建设或机房托管设置）、模型优化、性能监控和持续的硬件维护。

我们可以在价值链的芯片部分看到硬件供应商：

如果英伟达 40%的数据中心收入确实来自推理，那么英伟达今天在这个市场上占据主导地位。正如黄仁勋指出的，已经拥有领先训练硬件的企业可能会在升级设备时将其转换为推理硬件。

AMD 正在开拓这一市场，预计其 AI 加速器将带来 50 亿美元的年收入。他们最近的财报电话会议上的大部分定性评论都指向了推理工作负载。

RunPod 对 H100 和 MI300X 在推理方面作了有趣比较，指出 MI300X 由于有更大的 VRAM，在高批处理大小时具有更好的吞吐量。

MI300X 在非常小和非常大的批处理中更具成本优势。正如博客所指出的，纯粹的性能只是评估的一部分。Nvidia 在网络和软件方面的领先地位使其在需要系统级设计的实际场景中具有额外的优势。

有几家硬件初创公司也筹集了大量资金以抢占这个市场：

再次需要指出，买家的计算公式将是 TCO/性能。价值将流向硬件层面，问题在于在硬件之上的各层创造了多少价值。

市场上还有一个不确定的变量，但它可以决定推理中价值积累的很大一部分。

5 边缘推理呢？

Chipstrat的Austin（https://www.chipstrat.com/）在这方面做了出色的工作。正如奥斯汀所描述的，边缘推理对所有相关方都是有利的：

企业将会越来越有动力将这些工作负载尽可能地转移到消费者的设备上——消费者提供了硬件和电力资源，使企业能够生成智能。

这是双赢的局面：企业减少了资本支出和运营支出，而消费者则享受到了本地推理的好处。需要注意的是，采用本地推理需要：

激励消费者（奖励本地推理的商业模式、安全优势等）。

可以在边缘设备上运行的有用的小模型。

前者似乎很简单。像 o1-mini 这样的模型使后一种方法越来越现实。我不需要 Siri 成为整个网络的压缩版本——只需要一个能够处理简单任务的推理工具。所需要的更像是一个训练有素的五年级学生，而不是一个博士通才。

问题回归到开发硬件和软件以满足用户需求。我相信我们可以随着时间解决这些问题。

企业已经在开发硬件，如苹果的神经网络引擎、AMD 的 NPU、英特尔的 NPU、高通的 NPU、谷歌的 Tensor 以及初创公司 Hailo。随着小型模型的改进，它将越来越多地实现在边缘进行推理。

我对边缘推理的看法：

如果我们回顾历史上的颠覆性科技变革事件，它发生在新产品以远低于现有产品价格提供较少功能时，而现有产品无法与之竞争。大型机让位给小型机，小型机让位给个人电脑，个人电脑又让位给智能手机。

开启这些颠覆性变化的关键变量是性能过剩。高端解决方案解决了对大多数人而言非必需的问题。许多计算领域的颠覆性变化来自于计算的去中心化，因为消费者并不需要额外的性能。

有了AI，我还没看到性能过剩。ChatGPT 很好，但还不算出色。一旦它变得出色，那么 AI 在边缘计算的大门就会打开。小型语言模型和神经处理单元将引领这个时代。问题在于 AI 何时会在边缘计算中实现，而不是是否会实现。

这个市场再次回归到应用，边缘推理对于消费者应用来说更有意义。

6 推理市场的未来

推理工作负载最终将遵循 AI 应用程序的规模和形态。

人工智能应用的规模和强度将是决定推理市场大小的关键因素（即有多少应用程序在使用以及它们的复杂程度）。这些应用程序的形态（即谁在构建它们）将有助于确定推理市场的形态。

如果 AI 应用市场最终集中在 OpenAI、Microsoft 和 Google 等少数几家公司手中，那么推理价值将流向这些垂直整合公司的底层硬件。

如果 AI 应用市场最终变得碎片化，许多公司拥有较小的市场份额，那么推理市场将更加开放。这些较小的、非垂直整合的公司，将为推理提供商的管理服务付费。有些公司可能希望获得比简单 API 所能提供的更多的个性化或定制化选项。

如果这些应用程序能够使用足够简单的模型在边缘运行，那么这将为边缘的推理硬件打开大门。

最后，所有这些变量都是连续的，而不是二元的。一些推理将在边缘运行，一些应用程序将成为高度复杂的逻辑推理机器，一些应用程序将由大型模型提供商拥有，而另一部分将由初创公司赢得。

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所：2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成：十年回顾

《以人为中心的大型语言模型（LLM）研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来？世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇

Deepmind：AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所：2024 技术趋势报告 - 人工智能篇

国际电联：迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织：2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等，AI 智能体：探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学：AIGC 发展研究 3.0 发布版 b 版

OpenAI：2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报从复杂系统角度评估人工智能风险

复旦大学大模型 AI 代理的兴起和潜力：综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院《人工智能中的 - 创造力：进展与挑战》

《你所需要知道的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告：《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德全球灾难风险评估

斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平？》——Yann LeCun, 附 Slides 及视频

华为：2024 鸿蒙生态应用开发白皮书 V3.0（最新版）

CASA：2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS：2024 光伏应用趋势报告（英文版）

ABI Research：82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告（2024 - 2029 年）》

《军事自主系统：未来之路》美空军

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

Artificial Intelligence Review：人工智能与物理学相遇的综述

麦肯锡：全球难题，应对能源转型的现实问题

欧米伽理论，智能科学视野下的万物理论新探索（研究论文）

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights：未来变革者：2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页，美国防部首席数字和人工智能办公室（CDAO）

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察：引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起：整合人工智能、区块链技术与量子计算 (研究报告，书）

OpenAI o1 评估：AGI 的机遇和挑战（280 页）

世界知识产权组织：2024 年全球创新指数

美国白宫：国家近地天体防御策略与行动计划

上下滑动查看更多

来源：人工智能学家

标签：推理技术 api

本文地址：https://news.43u.com.cn/a/86296.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐