摘要:预训练模型(数据导入、token 化分解及模式识别的过程)本质上是单次的成本投入。但在推理过程中,模型的每个提示词 (prompt) 都会生成 token,而每个 token 都会产生成本。
解析 AI 在生产环境中的部署成本,助力用户实现性能优化和盈利能力。
随着 AI 模型的持续演进与应用普及,企业需要在价值最大化的目标下进行精心权衡。
这是因为推理(将数据输入模型并获取输出的运算过程)面临与模型训练截然不同的计算挑战。
预训练模型(数据导入、token 化分解及模式识别的过程)本质上是单次的成本投入。但在推理过程中,模型的每个提示词 (prompt) 都会生成 token,而每个 token 都会产生成本。
这意味着,随着 AI 模型性能提升和应用规模扩大,token 的生成量及其相关计算成本也会增加。对于希望构建 AI 能力的企业来说,关键在于控制计算成本的同时,以最快的速度、最高的准确性和服务质量生成尽可能多的 token。
为此,AI 生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破,过去一年中推理成本持续呈下降趋势,催生了日益先进、高能效的加速计算基础架构和全栈解决方案。
根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025 年人工智能指数报告》,“2022 年 11 月至 2024 年 10 月期间,达到 GPT-3.5 水平系统的推理成本降幅超 280 倍。硬件层面的成本年降幅 30%,而能效年提升率达 40%。开放权重模型也在缩小与闭源模型的差距,部分基准测试中,性能差距在一年内就从 8% 缩小到仅 1.7%。多重趋势共同作用下先进 AI 的门槛正在迅速降低。”
随着模型持续演进引发需求及 token 量级增加,企业必须扩展其加速计算资源,以提供下一代 AI 逻辑推理工具,否则将面临成本和能耗增加的风险。
以下是推理经济学概念的入门指南,帮助企业可以建立战略定位,实现高效、高性价比且可盈利的大规模 AI 解决方案。
AI 推理经济学的关键术语
了解推理经济学的关键术语是理解其重要性的基础。
词元 (Token) 是 AI 模型中的基本数据单位,源自训练过程中的文本、图像、音频片段和视频等数据。通过 token 化 (tokenization) 过程,原始数据被解构成最小语义单元。在训练过程中,模型会学习标记 token 之间的关系,从而执行推理并生成准确、相关的输出。
吞吐量 (Throughput) 指的是模型在单位时间内输出的 token 量,其本身是运行模型基础架构的一个函数。吞吐量通常以 token/每秒为单位,吞吐量越高,意味着基础架构的回报越高。
延迟 (Latency) 是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括:
首 token 时延 (Time to First Token, TTFT):用户输入提示后,模型生成第一个输出 token 所需的时间。首 token 后,每个输出 token 的时延 (Time per Output Token, TPOT):连续 token 之间的平均输出时间,也可以理解为,模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。TTFT 和 TPOT 固然是重要的基准参数,但它们只是众多计算公式中的两个部分,只关注这两项指标仍可能导致性能衰减或成本超支。
为了考虑其他相互依赖的因素,IT 领导者开始衡量“有效吞吐量 (goodput)”,即在维持目标 TTFT 和 TPOT 水平的前提下,系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能,保持吞吐量、延迟和成本的最优配置,确保运营效率和优秀的用户体验。
能效是衡量 AI 系统将电能转化为计算输出效率的指标,以每瓦特性能来表示。通过使用加速计算平台,组织可以在降低能耗的同时,最大化每瓦特的 token 处理量。
扩展定律 (Scaling Law) 如何应用于推理成本
理解推理经济学的核心在于掌握 AI 的三大扩展定律:
- 预训练扩展 (Pretraining scaling):最初的扩展定律表明,通过提升训练数据集规模、模型参数数量以及增加计算资源,能够实现模型智能水平和准确率的可预测性提升。
- 后训练 (Post-training):对模型的准确性和领域专业性进行微调,以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。
- 测试时扩展 (Test-time scaling,又称“长思考”或“逻辑推理”):在推理过程中,模型会分配额外的计算资源,以评估多种可能的结果,然后得出最佳答案。
虽然 AI 在不断发展,后训练和测试时扩展技术也在持续迭代,但这并不意味着预训练即将消失,它仍然是扩展模型的重要方法。要支持后训练和测试时扩展,仍需要进行预训练。
可盈利的 AI 需要全栈方案
相较于只经过预训练和后训练的模型推理,采用测试时扩展的模型会生成多个 token 来解决复杂问题。这虽然可以显著提升准确性和模型输出的相关性,但计算成本也会更高。
更智能的 AI 意味着生成更多 token 来解决问题,而优质的用户体验意味着尽可能快地生成这些 token。AI 模型越智能、越快速,对公司和客户的实用性就越大。
企业需要扩展其加速计算资源,构建能支持复杂问题求解、代码生成和多步骤规划的下一代 AI 逻辑推理工具,同时避免成本激增。
这需要先进的硬件和全面优化的软件栈。NVIDIA AI 工厂产品路线图旨在满足计算需求,帮助解决复杂的推理问题,同时实现更高的效率。
AI 工厂集成了高性能 AI 基础设施、高速网络和经优化的软件,可大规模生产智能。这些组件设计灵活、可编程,使企业能够优先关注对其模型或推理需求更关键的领域。
为了进一步简化在部署大规模 AI 逻辑推理模型时的操作,AI 工厂在高性能、低延迟的推理管理系统上运行,确保以尽可能低的成本满足 AI 逻辑推理所需的速度和吞吐量,从而最大化提升 token 收入。
了解更多信息,请阅读电子书:《AI 推理:平衡成本、延迟与性能》
来源:NVIDIA英伟达中国