
AIOps 和 Agentic AI 技术可以助力开发解决方案,智能分析 Kubernetes 集群的健康状况,自动诊断平台问题,并在最少人为干预的情况下协调解决问题。亚马逊云科技的 Vikram Venkataraman 和 Salesforce 的 Srikanth Rajan 在 2025 年北美 KubeCon + CloudNativeCon会议上讨论了 Salesforce 使用 AIOps 和 AI Agent 实现自愈系统的途径。
AIOps 架构是由 Salesforce 的团队开发的,该团队负责开发和支持管理基础设施的软件,以支持 Hyperforce Kubernetes 平台。这是一个在多个云(亚马逊云科技、GCP、Alicloud)上构建的托管 Kubernetes 平台,提供命名空间即服务。他们的 K8s 平台的运营规模包括 1400 个 K8s 集群、数百万的 pods、数千个计算节点、40 多个操作器和集成以及 200 多个监控插件。演讲者强调,他们估计在未来几年内容量将增加五倍。解决方案的总体目标是让应用团队专注于业务需求,而不是陷入基础设施的负担。
他们讨论了 Kubernetes 平台运营的方法,利用生成式 AI 和多 Agent 协作创建一个集群管理系统来排查 Kubernetes 集群,减少关键集群问题的平均识别时间(MTTI)和平均解决时间(MTTR)。Agentic AI 解决方案由一系列具有特定目标的 AI Agent 组成,帮助 AIOps 平台和工具从遥测平台检索数据。Agent 对其 K8s 环境执行操作,如在升级过程中遇到任何问题时回滚升级。
Venkataraman 和 Rajan 讨论了构建智能运维 AI 的挑战,例如不同的 Agent 应该如何相互通信,Agent 必须具备哪些护栏和安全权限才能只根据指导方针执行。他们讨论了解决方案架构的细节,该架构托管在亚马逊云科技云平台上,包括供工程师使用的 AIOps UI、协作 Agent、Amazon Prometheus 及其 Agent、Amazon EKS、帮助提供 MTTI 指标的 k8sgpt Operator,以及 ArgoCD Controller。
然后,演讲者分享了他们的技术栈细节,展示了不同层次的开源技术和自研工具:
底层(Kubernetes 云平台,如 Amazon EKS、自管 K8s、Google GKE 和 Alicloud ACK)
标准能力:存储、网络、自动扩展、DNS、负载均衡、网格和入口。这一层使用的技术包括 Istio、Cluster Autoscaler、CSI、OPA、Ingress、CNI、LBC 和 CoreDNS。
自定义集成层包括身份、密钥管理、护栏和日志收集等能力。
平台能力层由平台抽象、部署编排、生命周期自动化、可见性与可观察性、弹性、成本管理和最佳实践执行等组件组成。这一层的工具包括 Argo、Kyverno、Spinnaker、Helm、Kube Magic Mirror、Sloop 和 Periscope。
最后,API 层提供客户访问服务,并托管控制平面、API 和自助服务门户。
为了解决工具孤立、工作流静态、反馈循环有限等问题,团队开发了基于 AI Agent 的基础设施管理解决方案。他们从小规模开始,引入了一些 AI Agent,如 AIops Agent(值班报告 Agent)、与 Slack 团队频道集成的 Kubectl Agent,以及将自然语言问题翻译成kubectl命令,提供 Slack 上的调试信息。还有实时站点分析 Agent,通过分析 SLA 未命中等指标自动化每周平台可用性审查流程,并生成根本原因分析(RCA)洞察。
演讲者建议在采用基于 AI Agent 的解决方案时逐步实现自主性。他们最初的方法是将人类纳入循环,以确保问题解决的安全性和准确性。一旦团队对 AI Agent 有了信心,他们开始给予 Agent 解决方案更多的自主权。
他们总结讲话时表示,团队只是触及了 AI 技术可能性的冰山一角,AI Agent 在其他几个用例中也很有用。他们的 AIOps 程序路线图强调了扩展 AI Agent 以消除 80%的手动工作,一个知识图谱,包含所有信息以连接整体系统中不同组件的点,以及使用 AI 检测和排查性能问题。
有关此会议和其他会议议程的更多信息,请查看会议网站和日程安排。
原文链接:KubeCon NA 2025 - Salesforce’s Approach to Self-Healing Using AIOps and Agentic AI








评论