AI 运维的新时代：从 MLOps 到 LLMOps深度解析

摘要：文章首先介绍了提示词工程（Prompt Engineering）、检索增强生成（RAG）和微调（Fine-tuning）等常见 LLM 应用场景，并深入探讨了这些方法的挑战和局限性。随后，通过对比 MLOps 和 LLMOps，突出了后者在管理复杂模型生命周期

文章围绕 LLMOps（大语言模型运维）展开，详细解析了企业如何使用大语言模型（LLMs），以及 LLMOps 在优化 LLM 开发、部署和管理中的核心作用。

文章首先介绍了提示词工程（Prompt Engineering）、检索增强生成（RAG）和微调（Fine-tuning）等常见 LLM 应用场景，并深入探讨了这些方法的挑战和局限性。随后，通过对比 MLOps 和 LLMOps，突出了后者在管理复杂模型生命周期中的独特价值。

文章还列举了 Agenta、Deeplake、MLflow、Dify 和 Helicone 等 LLMOps 平台，帮助读者理解这些工具如何支持最佳实践。最后，通过 MLflow 的实际案例，展示了 LLMOps 理念的落地方法，让读者对这一领域的未来应用有了更清晰的认识。

近几年随着AI技术的不断迭代，大语言模型应用席卷几乎所有行业。虽然，大语言模型为企业提供了强大的文字生成能力，然而基础模型的训练（如 GPT，Claude，Titan和 LLaMa）需要投入大量的资源（时间、资金、人员）。由于缺乏资金预算、基础设备以及机器学习专家，更多企业会选择更加经济的方式使用大语言模型。大致包括如下路径：

提示词工程包括精心设计文字输入（突出提示），以尽量进行模型输出的控制。这包括少量样例提示和思维链提示（Chain-of-Thought，CoT），能够提高模型的出口准确性和响应质量。这种方式简单易行，可通过云端 API 调用或实用的平台（如 ChatGPT 网络界面）尽快进行。

如下图所示，这是经典的 ChatGPT 场景，应用程序调用OpenAI提供的大语言模型API来处理用户提出的请求，例如知识检索、摘要、自动更正、翻译、自然语言生成 (NLG)等。

提示词成为了人与大模型之间的主要交互方式，通过输入提示词，并调用LLM API 提供上下文和指导，从而最大限度地提高获得“正确”响应的机会。通过提示词的交互方式，提示词工程师可以对应用进行系统地测试，并将模型返回的结果与预期进行匹配，从而获得“正确”的提示词，得到 “最佳”响应。

RAG 通常作为计算增强和提示增强，在提示里添加外部资料（如向量库或 API）进行资料调用。这一比微调更低成本且尽快实施的方式，可提高出口信息验证的可靠性，并防止学机处理不足。

微调和转移学习类似，微调是在基础 LLM 之上，将它专属的预训练数据采用目标实人化。

通过微调，模型的结果比较准确，最大限度可减少“幻视”（通常指对位错误的解出）。虽微调的费用会高于提示工程，但在提示实施时，其效率会显现出优势。

在模型采用企业实施数据，通过比较简短且可充分理解的提示实现性能优化和成本提高。这与实体模型（如 ChatGPT）升级相结合，如 GPT 作为基础，ChatGPT 成为其微调后的交互工具。

当前企业在使用 LLM 时主要依赖提示词工程（Prompt Engineering）、检索增强生成（RAG）和微调（Fine-tuning）三种核心方法。虽然这些方法可以帮助企业快速实现 LLM 的应用，但它们也伴随着一系列挑战：提示词优化需要多次试验才能获得最佳效果；RAG 需要集成外部知识库，增加了复杂性；微调则涉及数据集的选择和性能验证，操作复杂且成本高昂。这些问题都对 LLM 的开发、部署和维护提出了更高的要求。

在 LLMOps （大语言模型运维）之前，机器学习运维 (MLOps) 已经广泛应用于传统机器学习模型的生命周期管理，提供了开发、部署和监控的标准化流程。然而，大语言模型的复杂性和规模远超传统机器学习模型，单靠 MLOps 无法完全满足其需求。因此，LLMOps 作为 MLOps 的一个子集，专注于管理 LLM 的全生命周期，提供了一套系统化的解决方案，用以应对上述问题：

部署复杂性：LLMs 的规模庞大且需要高度优化的基础设施进行部署。此外，不同模型往往由不同厂商提供，其接口和调用方式各异，增加了部署的复杂性。LLMOps 通过标准化流程和工具，不仅屏蔽了不同模型之间的差异性，还能确保这些模型可以高效、无缝地集成到现有系统中，从而减少开发者适配多种模型的额外工作量。

性能评估与优化：为了保证模型在不同场景下的表现一致，LLMOps 提供了对微调过程的全面支持，包括微调使用的数据集选择、模型适配性验证以及微调后性能的评估机制。这些功能确保模型输出的准确性和相关性，同时通过系统化评估帮助企业验证微调的效果和价值，并针对性优化模型行为。

持续监控与改进：LLMOps 超越了传统的基础设施监控，还包括对模型行为的深入跟踪，帮助理解模型的决策过程。特别是在 AI Agent 应用中，LLMs 会频繁调用，通过规划和自省提升输出内容质量。这个过程通常不可见，需要通过 LLMOps 提供的工具对应用执行过程进行全面监控，包括每个过程的执行时间、步骤以及结果。这种可视化能力能够帮助应用开发人员清晰了解程序的执行情况，从而优化和改进内容生成流程。

成本管理：运行 LLM 需要大量计算资源，其中包括模型处理过程中所耗费的 Token 成本。这些成本可能因请求量大或 Token 使用不当而急剧增加。LLMOps 提供了监控和优化 Token 消耗的机制，通过分析模型使用情况和优化提示设计，减少不必要的 Token 开销，从而在保证性能的同时显著降低运行成本。

因此，LLMOps 作为企业管理 LLMs 的核心方法论，解决了从部署到维护的全生命周期问题，为生成式 AI 在企业中的高效应用奠定了基础。

LLMOps 是专为管理 LLM 生命周期而设计的操作方法论，包括模型训练、微调、部署和监控。下面这张图展示了 LLMOps 的生命周期，并说明了 LLMOps 在每个阶段中的具体作用。从数据准备到模型监控，LLMOps 提供了一套系统化的方法和工具，支持大语言模型（LLM）的开发、部署和持续优化。

训练基座模型，通过数据集准备、训练到生成基座模型，这个过程耗时耗力一般都是由有算力资源的大厂（OpenAI、Google、百度、阿里）完成。对于LLMOps而言需要针对不同厂商提供的多种模型提供部署和调用的接口。避免了从零开始训练模型所需的高昂成本。通过整合专属数据集，LLMOps 确保了微调过程中数据质量的一致性和可用性，为模型的进一步优化打下坚实基础。

在调用和部署基座模型的基础上，LLMOps 会协助完成模型的微调，微调（Fine-tuning）是整个生命周期中的关键环节。LLMOps 支持开发者有效管理微调数据集，并提供定制化的验证工具。通过引入人工反馈机制和提示（Prompt）性能评估，LLMOps 确保了微调后的模型在特定领域中的准确性和连贯性。

在提示管理（Prompt Management）中，LLMOps 提供了版本控制和性能分析工具，使开发者能够跟踪提示与模型输出的变化趋势。通过对多种 LLM 的提示效果进行对比分析，企业能够快速找到最适合其应用场景的模型配置，从而提高模型响应的效率和可靠性。

针对复杂应用场景，LLMOps 支持 LLM 链接（LLM Chaining），通过管理链式调用，将复杂任务分解为多个可控的步骤。一个 LLM 的输出可以直接作为下一个 LLM 的输入，从而实现复杂问题的分步解决。这一功能还结合了向量数据库等技术，进一步优化了生成内容的准确性。

当模型被部署到生产环境后，LLMOps 提供全面的监控与可观察性（Monitoring and Observability）支持。通过捕获提示长度、延迟、Token 使用量等数据，LLMOps 能够实时监控模型的性能变化，识别可能出现的漂移或性能退化问题。这些监控结果为模型的重训练或基础模型的切换提供了数据支撑，确保模型能够在动态业务场景中保持稳定。

通过上图的描述我们了解到LLMOps在大语言模型的生命周期中起到的作用，其中有几项管理方式和技术为LLMs应用起到了关键作用：

提示管理（Prompt Management）：LLMOps 提供了提示管理工具，可以追踪和版本化提示及其输出。开发者可以通过这些工具对提示效果进行对比分析，选择最佳的模型响应。同时，提示管理还支持在多种 LLM 之间评估提示性能，从而帮助开发者快速找到适合特定应用的最佳模型。

这就好比，一个学生在课堂上向老师请教数学问题，他尝试了多种提问方式，例如：“这道题的答案是什么？” 或 “你能告诉我这道题是怎么解的吗？” 通过多次尝试，学生发现，如果他说：“老师，我卡在这道题的第二步了，你能具体讲一下这一步的推导过程吗？” 就能获得最清晰和详尽的回答，同时老师也能更准确地理解学生的困惑点。这种提问方式不仅让学生对问题的解决更满意，也让老师觉得沟通更顺畅、教学体验更愉快。

假设一个企业需要开发一款客服机器人来回答用户的常见问题。开发者可能需要多次尝试不同的提示，例如：“请用简短的句子回答用户的问题” 或 “请提供详细的回答，包括参考资料”。LLMOps 的提示管理工具可以记录每次提示的输入内容、对应的模型输出以及用户反馈数据。通过对比这些数据，开发者发现第一种提示更适合快速解答用户的简单问题，而第二种提示更适合提供全面的技术支持。

此外，提示管理工具还支持在多个模型之间进行测试。例如，开发者可以同时在 GPT 和 Claude 等模型中运行相同的提示，分析响应时间、准确性和语言风格，从而选择最适合的模型配置。这种基于实际场景的测试和分析，大幅减少了模型调优的试错成本，帮助企业快速上线高效的应用。

提示管理（Prompt Management）的本质：通过LLMs对不同提示词的响应效果评估模型性能。

LLM 链接（LLM Chaining）：LLMOps 支持对多个 LLM 调用的管理，将其串联起来完成复杂任务。通过这一方法，每次调用的输出可以作为下一个调用的输入，将一个复杂问题分解为多个可控的小步骤。这不仅提高了模型的处理效率，还能结合其他技术（如向量数据库）进一步优化结果的准确性。

想象一个人规划一次复杂的旅行，他首先询问“哪些城市在这个季节适合旅游？”，然后根据推荐城市，进一步提问“这些城市中有哪些提供美食体验？”，接着再问“这些城市中最经济实惠的住宿选择是什么？”。每个问题的答案为下一步问题提供基础，逐步形成一个完整的旅行计划。这种按步骤分解复杂问题的方法让任务变得更加清晰、可执行。

在企业应用场景中，一个客服机器人需要处理一个复杂的客户请求，例如“帮我定制一个符合我们团队需求的云存储方案”。机器人可以将任务拆解为多个步骤：首先调用一个 LLM 获取客户的具体需求（如存储量、预算等）；然后调用另一个 LLM 比对适合的解决方案；最后调用文档检索系统（如向量数据库）获取技术细节并整合成一份完整的方案。每次调用的输出直接为下一个调用提供上下文，确保整个过程的流畅性和准确性。

无论是旅行计划的逐步推进，还是客服机器人处理复杂请求的链式调用，都体现了 LLM 链接（LLM Chaining）的核心理念：通过任务分解和多步骤执行，高效解决复杂问题。这正是 LLMOps 在大模型应用管理中不可或缺的一环。

监控与可观察性（Monitoring and Observability）：LLMOps 提供了一个实时监控和观察系统，用于捕获模型运行过程中的关键数据点，例如提示的长度、响应时间、延迟以及每个步骤的执行状态。这种系统能够帮助开发者全面了解模型在实际应用中的表现，发现潜在的性能问题，及时调整模型设置或优化提示内容。此外，监控系统还可以跟踪模型的行为变化，识别模型漂移和潜在偏差，为后续的重训练和基础模型切换提供数据支持。

想象一个家庭厨师，他在尝试制作一道新菜。每次烹饪时，他都会记录配料用量、烹饪时间和火候控制，观察菜肴的最终效果。通过对这些数据的分析，他可以发现哪些步骤影响了口感，例如煮得太久会让菜变得过于软烂，而火候过高可能导致食材烧焦。通过这些观察，厨师能够逐渐优化配方和流程，让每一次的菜肴都达到理想状态。

在企业应用中，例如一个客服机器人被部署到生产环境中。LLMOps 的监控系统能够实时捕获提示和响应的长度、系统延迟，以及每个对话步骤的执行状态。如果发现模型响应时间变长或生成内容与预期不符，监控数据可以帮助开发者分析问题来源，可能是由于模型漂移或提示内容不足。此外，监控系统还能发现特定场景下的模型偏差，例如对某些语言的响应质量下降，从而为模型的微调或切换基础模型提供依据。

这正是 LLMOps 的核心能力之一：通过实时捕获和分析模型运行数据，为应用优化提供明确方向，从而确保模型在动态场景中持续稳定地发挥作用。

在人工智能的发展历程中，MLOps（机器学习运维）已经成为管理传统机器学习模型的标准方法。作为AI运维的前辈，MLOps 涉及模型的开发、训练、部署和监控，强调通过自动化和标准化流程提升模型的生产效率。然而，大语言模型（LLMs）的兴起，为企业带来了全新的机遇和挑战，促使 LLMOps 成为一种更具针对性的运维框架。

我们希望通过对比 MLOps 和 LLMOps，更清晰地认识到 LLMOps 是如何在传统 MLOps 基础上扩展的，以及它为何适合大语言模型。通过下图，可以看出LLMOps 和 MLOps 的主要区别：

模型选择：在 MLOps 中，开发者通常选择特定版本的模型，这些模型可能通过从零开始训练或迁移学习生成，具有明确的任务导向性。而在 LLMOps 中，重点是选择预训练的基础模型（如 GPT 或 LLaMA），然后根据具体的业务场景进行调整，使其适配特定用例。

模型训练：MLOps 侧重于传统的训练方式，从头构建模型或通过迁移学习生成适配模型。LLMOps 则以微调为核心，通过专属数据集对预训练的基础模型进行优化，极大减少了开发成本，同时提升了模型的上下文相关性。

模型验证：在 MLOps 中，模型验证依赖于传统的机器学习评估指标，如 AUC、Accuracy 和 F1 分数等。LLMOps 则更加关注提示（Prompt）的准确性和连贯性，通常通过人工反馈和定制化的评估指标来验证模型性能，确保生成内容的质量。

模型部署：MLOps 通过流水线的形式对模型进行打包和部署。LLMOps 的部署更复杂，不仅需要打包和部署基础模型，还涉及链式调用（LLM Chaining）、向量数据库的集成以及提示优化等额外组件的管理。

模型监控：MLOps 的监控重点是模型漂移和性能表现，确保模型能够在实际场景中稳定运行。LLMOps 进一步扩展了监控范围，包括对提示与完成对的实时追踪，监控 Token 使用情况、延迟、步骤执行时间等指标。此外，还需要特别关注模型的偏差和性能漂移，以便在必要时调整或重训练模型。

从机器学习到深度学习，再到大语言模型的训练和推广，见证了从MLOps 到LLMOps的发展历程。为了迎接新的挑战，有许多平台和工具被设计为支持 LLMOps 的最佳实践，它们在不同程度上实现了 LLMOps 生命周期的管理。这些平台涵盖了从提示优化到数据管理、模型微调、部署以及监控的各个环节，为开发者和企业提供了系统化的工具和方法。通过这些工具，开发者能够更高效地管理 LLM 的全生命周期，从而优化模型性能、提高开发效率并降低运维成本。

这些平台和工具的功能特点各异，有些专注于实验管理和模型调试，有些则侧重于提示管理或多模态数据的高效处理。例如，Agenta 提供了多种提示实验和工作流评估工具，适合开发稳健的 LLM 应用；Deeplake 专注于大规模多模态数据管理，通过流式传输和 GPU 优化提升数据处理效率；MLflow 是一个端到端的生命周期管理工具，广泛应用于实验跟踪和模型部署；Dify 则为开发者和非技术用户提供了快速构建 LLM 应用的可视化开发框架；而 Helicone 提供了实时监控和调试功能，帮助开发者快速发现和优化性能问题。

通过这些平台和工具的结合使用，企业能够实现 LLMOps 理论在实际场景中的落地，全面提升 LLM 的开发和应用效率。这些实践不仅让 LLMOps 的理论更加具体和可操作，也让企业能更好地适应生成式 AI 应用的快速发展。推荐关注以下几款优秀的工具和平台：Agenta、Deeplake、MLflow、Dify、Helicone，它们在 LLMOps 的各个环节都有突出的表现。

用途：构建稳健的大语言模型应用（LLM Apps）。

特点：支持不同提示、模型和工作流的实验与评估。专注于提升应用的鲁棒性。提供全面的工具集，让开发者能够快速构建和迭代。

适用场景：需要多次尝试不同提示和模型的企业开发环境。

优势：帮助开发者快速找到最优工作流，适合实验驱动的 LLM 应用开发。

用途：高效管理和使用多模态数据集。

特点：提供大规模数据集的流式传输，实现 GPU 近乎 100% 的利用率。支持查询、可视化和数据版本控制。无需重新计算嵌入，即可高效访问数据。

适用场景：需要处理大型多模态数据集（如文本、图像）的 LLM 微调或实时推理任务。

优势：显著提高数据处理效率，优化资源利用。

用途：端到端机器学习和大语言模型生命周期管理。

特点：实验跟踪：记录参数、指标和模型输出。模型注册与版本控制：支持跨团队协作。快速部署：一键部署至生产环境。

适用场景：微调 LLM、实验管理和模型版本控制。

优势：广泛使用的标准工具，覆盖从实验到生产的全流程。

用途：快速构建基于 LLM 的可视化和可操作应用。

特点：支持无代码和低代码开发。提供可视化的界面，适合开发者和非技术人员。支持应用的快速迭代与改进。

适用场景：团队协作中需要快速原型和演示的应用。

优势：降低技术门槛，加速开发进程，适合内部应用快速开发。

用途：LLM 应用的监控和调试平台。

特点：捕获提示、响应及性能指标。实时监控和调试，提供直观的分析界面。1 行代码即可集成到现有应用中。

适用场景：需要实时监控 LLM 性能和调试复杂问题的场景。

优势：开发者友好，快速定位问题。

为了方便大家比较，如下图所示，我们通过“主要功能”，“适用场景”以及“特点”三个方面进行横向比较。

在介绍完LLMOps的平台和工具之后，相信大家都在摩拳擦掌，跃跃欲试。这里，我们挑选了比较流行的MLflow ，来给大家演示LLMOps的部分能力。

通过这个实践，我们可以窥探 LLMOps 理念的基础能力：

实验追踪：MLflow 的 Tracking Server 类似于 LLMOps 中的模型性能监控。模型注册与版本管理：支持记录和切换不同模型版本。推理与部署：通过日志记录的模型快速部署到生产环境。

首先，确保你已经安装了最新版本的 MLflow，可以通过以下命令快速完成：

在本地启动一个 Tracking Server，用于记录和管理实验：

mlflow server --host 127.0.0.1 --port 99991.

将 Tracking Server 的 URI 设置为当前环境：

我们将使用经典的 Iris 数据集 来训练一个逻辑回归模型，并记录模型的超参数和性能指标：

rom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score# 加载数据集并划分训练与测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 定义超参数并训练模型params = {"solver": "lbfgs", "max_iter": 1000, "random_state": 42}lr = LogisticRegression(**params).fit(X_train, y_train)# 计算模型的准确性accuracy = accuracy_score(y_test, lr.predict(X_test))1.2.3.4.5.6.7.8.9.10.11.12.

使用 MLflow，将训练得到的模型及其相关数据记录下来：

with mlflow.start_run: # 记录超参数 mlflow.log_params(params) # 记录性能指标 mlflow.log_metric("accuracy", accuracy) # 保存并注册模型 model_info = mlflow.sklearn.log_model( sk_model=lr, artifact_path="iris_model", registered_model_name="iris_lr_model" )1.2.3.4.5.6.7.8.9.10.11.12.13.

通过 MLflow 加载已经记录的模型，并对测试数据进行预测：

loaded_model = mlflow.pyfunc.load_model(model_info.model_uri)predictions = loaded_model.predict(X_test)# 输出预测结果result = pd.DataFrame(X_test, columns=datasets.load_iris.feature_names)result["actual"] = y_testresult["predicted"] = predictionsprint(result.head)1.2.3.4.5.6.7.8.

启动 MLflow UI（默认地址为 http://localhost:9999），你可以通过浏览器访问来查看实验的详细记录，包括超参数、指标和模型版本。

如下图所示，可以通过点击列表中的“debonair-sloth-211”进入训练跟踪记录。

接着可以看到本次训练的详细信息，包括创建时间、创建者、实验编号等。

下滑到页面的底端还可以看到训练参数和精度相关信息。

在“Artifacts”选项卡中还可以看到与模型相关信息，如下：

总结

LLMOps 是应对大语言模型复杂性和规模化需求而发展出的运维框架，它从提示管理、链式调用到监控与可观察性，为企业的生成式 AI 应用提供了全方位支持。通过引入 LLMOps，企业能够高效解决 LLM 应用中的部署复杂性、性能优化、实时监控以及成本控制等问题，从而提升开发效率和模型可靠性。文章还通过 MLflow 的实际操作，展示了如何在实验跟踪、模型注册和部署中初步实践 LLMOps 理念，为读者提供了理论和实践结合的学习路径。未来，随着技术的不断发展，LLMOps 必将成为企业管理大语言模型不可或缺的核心工具。

参考

崔皓，51CTO社区编辑，资深架构师，拥有18年的软件开发和架构经验，10年分布式架构经验。

来源：51CTO

标签：运维 llmops mlops

本文地址：https://news.43u.com.cn/a/459945.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!