生成式 AI 如何帮助 Kubernetes 运营

摘要:企业经常遇到使用 Kubernetes(简称 K8s)大规模编排大量容器的摩擦,更不用说不断增加的集群数量了。由于 Kubernetes 的复杂性,诊断 Kubernetes 中的问题并不是那么容易。与此同时,IT 部门正在寻求 AI 来自动化配置、管理和调试

企业 IT 中的 GenAI 已被夸大其词。但是,一些开拓者希望窄模型将使诊断 Kubernetes 问题变得更加容易。

企业经常遇到使用 Kubernetes(简称 K8s)大规模编排大量容器的摩擦,更不用说不断增加的集群数量了。由于 Kubernetes 的复杂性,诊断 Kubernetes 中的问题并不是那么容易。与此同时,IT 部门正在寻求 AI 来自动化配置、管理和调试复杂的后端技术。

“尝试使用 AI 解决 IT 问题并不是什么新鲜事,”Komodor 的联合创始人兼首席技术官 Itiel Schwartz 说。“它通常会承诺过高,但兑现不足。”然而,尽管他起初持怀疑态度,但现在他看到了利用微调的生成式 AI 模型来减少障碍和简化 Kubernetes 操作的前景。

AI 模型的准确性取决于其训练数据集。而当今流行的大型语言模型 (LLMs如 OpenAI 的 GPT、Meta 的 Llama、Anthropic 的 Claude 或 Google 的 Gemini,都是在大量文本数据上进行训练的。Schwartz 说,虽然这适用于通用用途,但它们通常会为超具体的 DevOps 功能提供不相关的建议。

Schwartz 认为,与其使用包罗万象的模型,不如使用窄模型更适合诊断 Kubernetes 问题。他们可以通过遵循更权威、更受控的流程来帮助避免 AI 幻觉或错误,例如获取一条高度相关的数据,例如日志、指标或相关更改。

其中一种工具是 Komodor 的 KlaudiaAI,这是一个 AI 代理,在对 Kubernetes 操作问题的历史调查方面接受过严格的培训。KlaudiaAI 接受过根本原因分析培训,擅长识别问题、获取相关日志和提供具体的补救步骤。例如,当工程师遇到崩溃的 Pod 时,KlaudiaAI 可能会将其与日志中找到的 API 速率限制相关联,并建议设置新的速率限制。

当然,Komodor 并不是唯一一家研究使用 AI 代理和自动化来简化 Kubernetes 管理的公司。K8sGPT 是一个开源的云原生计算基金会 (CNCF) 沙盒项目,它使用特定于 Kubernetes 的分析器来诊断集群问题,并以通俗易懂的英语提供补救建议。Robusta 是一个类似的 AI 副驾驶,专为 Kubernetes 故障排除而设计,例如事件解决和警报。Cast AI 使用生成式 AI 自动扩展 Kubernetes 基础设施,以降低运营费用。

如果我们看看主要的云服务提供商,ChatOps 并不是什么新鲜事。例如,Amazon 提供 AWS Chatbot,它可以提供有关 Amazon Elastic Kubernetes Service 工作负载的警报和诊断信息,并根据聊天命令配置资源。亚马逊还有 Amazon Q,这是一个 AI 助手,具有多种技能,包括在 AWS 云上构建,因为它并不专门针对 K8s 管理。

同样,Google 的生成式 AI 助手 Gemini 是 Google Cloud 的通用工具,并非专门用于修复 Kubernetes 问题。但是,Google Kubernetes Engine 针对训练和运行 AI/ML 工作负载进行了优化,其 GKE Autopilot 可以优化基础架构的性能。专注于 Kubernetes 的 AI 助手可能也不甘落后。

其他主要的云参与者也希望从生成式 AI 中获利,尤其是在监控和可观测性领域。去年,Datadog 推出了 Bits AI,这是一个开发运营副驾驶,旨在跨 Datadog 接触的任何数据源进行事件响应。Bits AI 可以深入显示跟踪和日志,并为事件解决提供补救建议。

然而,Schwartz 说,持续存在的问题是,企业 IT 市场上的大多数 AI 模型仍然对其训练集撒下了一张网,以至于无法用于 Kubernetes 诊断的特定领域。“如果你使用通用的 AI 模型来调查这些问题,它只会让你失望。我们一次又一次地尝试,“Schwartz 说。“随着你缩小范围,幻觉的可能性就会降低。”
也就是说,高度关注细节可能会带来缺点。例如,Schwartz 指出 Klaudia 通常比其他模型慢(可能需要 20 秒才能得出答案)。这是因为它优先考虑准确性而不是速度,使用迭代调查过程,直到根本原因完成。他说,好消息是,通过纳入更多的健全性检查,该模型提高了准确性。

减少 K8s 可用性的障碍

Kubernetes 是现代 IT 无可争议的基础设施层。令人印象深刻的是,在 CNCF 的 2023 年年度调查中,84% 的受访者表示他们正在使用或评估 Kubernetes。此外,在针对 AI/ML 工作负载优化 Kubernetes 方面已经取得了很大进展。“迁移到 K8s 的最大原因之一是能够运行更高效的 ML,”Schwartz 说。

然而,安全性、复杂性和监控是高度云原生组织使用或部署容器的最大挑战。根据 PerfectScale 的说法,常见问题,例如未设置内存限制、未正确为 Pod 分配 RAM 或未设置 CPU 请求,威胁着 Kubernetes 的可靠性。现在的问题是,生成式 AI 是否可以帮助平台工程师或站点可靠性工程师等运营商更好地与平台交互。

“在大多数公司中,Gen AI 并不是真正的生产级,”Schwartz 说,他承认它的局限性,并且它往往在人机协同场景中效果最好。尽管如此,他预计 AIOps 很快就会成为解决根本原因、错误配置和网络问题以及指导优化的有用盟友。

特定于 Kubernetes 的、经过微调的 AI 可以帮助运维人员更快地诊断问题,例如部署失败或作业失败,并在问题出现时将其与根本原因联系起来。“Gen AI 将承担这些工作并将其自动化,”Schwartz 说。

来源:AI中国一点号

相关推荐