写点什么

KubeCon NA 2025:Salesforce 通向 AIOps 和 Agentic AI 之路

作者:Matthew Liste

  • 2025-11-19
    北京
  • 本文字数:1476 字

    阅读完需:约 5 分钟

大小:752.46K时长:04:16
KubeCon NA 2025:Salesforce通向AIOps和Agentic AI之路

AIOps 和 Agentic AI 技术可以助力开发解决方案,智能分析 Kubernetes 集群的健康状况,自动诊断平台问题,并在最少人为干预的情况下协调解决问题。亚马逊云科技的 Vikram Venkataraman 和 Salesforce 的 Srikanth Rajan 在 2025 年北美 KubeCon + CloudNativeCon会议上讨论了 Salesforce 使用 AIOps 和 AI Agent 实现自愈系统的途径。

 

AIOps 架构是由 Salesforce 的团队开发的,该团队负责开发和支持管理基础设施的软件,以支持 Hyperforce Kubernetes 平台。这是一个在多个云(亚马逊云科技、GCP、Alicloud)上构建的托管 Kubernetes 平台,提供命名空间即服务。他们的 K8s 平台的运营规模包括 1400 个 K8s 集群、数百万的 pods、数千个计算节点、40 多个操作器和集成以及 200 多个监控插件。演讲者强调,他们估计在未来几年内容量将增加五倍。解决方案的总体目标是让应用团队专注于业务需求,而不是陷入基础设施的负担。

 

他们讨论了 Kubernetes 平台运营的方法,利用生成式 AI 和多 Agent 协作创建一个集群管理系统来排查 Kubernetes 集群,减少关键集群问题的平均识别时间(MTTI)和平均解决时间(MTTR)。Agentic AI 解决方案由一系列具有特定目标的 AI Agent 组成,帮助 AIOps 平台和工具从遥测平台检索数据。Agent 对其 K8s 环境执行操作,如在升级过程中遇到任何问题时回滚升级。

 

Venkataraman 和 Rajan 讨论了构建智能运维 AI 的挑战,例如不同的 Agent 应该如何相互通信,Agent 必须具备哪些护栏和安全权限才能只根据指导方针执行。他们讨论了解决方案架构的细节,该架构托管在亚马逊云科技云平台上,包括供工程师使用的 AIOps UI、协作 Agent、Amazon Prometheus 及其 Agent、Amazon EKS、帮助提供 MTTI 指标的 k8sgpt Operator,以及 ArgoCD Controller。

 

然后,演讲者分享了他们的技术栈细节,展示了不同层次的开源技术和自研工具:

 

  • 底层(Kubernetes 云平台,如 Amazon EKS、自管 K8s、Google GKE 和 Alicloud ACK)

  • 标准能力:存储、网络、自动扩展、DNS、负载均衡、网格和入口。这一层使用的技术包括 Istio、Cluster Autoscaler、CSI、OPA、Ingress、CNI、LBC 和 CoreDNS。

  • 自定义集成层包括身份、密钥管理、护栏和日志收集等能力。

  • 平台能力层由平台抽象、部署编排、生命周期自动化、可见性与可观察性、弹性、成本管理和最佳实践执行等组件组成。这一层的工具包括 Argo、Kyverno、Spinnaker、Helm、Kube Magic Mirror、Sloop 和 Periscope。

  • 最后,API 层提供客户访问服务,并托管控制平面、API 和自助服务门户。

 

为了解决工具孤立、工作流静态、反馈循环有限等问题,团队开发了基于 AI Agent 的基础设施管理解决方案。他们从小规模开始,引入了一些 AI Agent,如 AIops Agent(值班报告 Agent)、与 Slack 团队频道集成的 Kubectl Agent,以及将自然语言问题翻译成kubectl命令,提供 Slack 上的调试信息。还有实时站点分析 Agent,通过分析 SLA 未命中等指标自动化每周平台可用性审查流程,并生成根本原因分析(RCA)洞察。

 

演讲者建议在采用基于 AI Agent 的解决方案时逐步实现自主性。他们最初的方法是将人类纳入循环,以确保问题解决的安全性和准确性。一旦团队对 AI Agent 有了信心,他们开始给予 Agent 解决方案更多的自主权。

 

他们总结讲话时表示,团队只是触及了 AI 技术可能性的冰山一角,AI Agent 在其他几个用例中也很有用。他们的 AIOps 程序路线图强调了扩展 AI Agent 以消除 80%的手动工作,一个知识图谱,包含所有信息以连接整体系统中不同组件的点,以及使用 AI 检测和排查性能问题。

 

有关此会议和其他会议议程的更多信息,请查看会议网站和日程安排。

 

原文链接:KubeCon NA 2025 - Salesforce’s Approach to Self-Healing Using AIOps and Agentic AI

2025-11-19 10:228

评论

发布
暂无评论

redis持久化持久化的方案与各自存在的问题

想要飞的猪

迁移 Nacos 和 ZooKeeper,有了新工具

阿里巴巴中间件

zookeeper 阿里云 云原生 nacos 迁移

企业应用现代化实用教程 | ​IT架构师必读的DevOps落地行动指南

York

DevOps 云原生 数字化转型 一体化架构 应用现代化

加密世界的福音,Galaxy Project上领取专属Zebec OAT

鳄鱼视界

详解AUTOSAR:什么是AUTOSAR?(理论篇—1)

不脱发的程序猿

汽车电子 嵌入式开发 AUTOSAR

科普达人丨一图看懂块存储&云盘

阿里云弹性计算

阿里云 云盘 块存储

灵魂拷问:你精神内耗了吗?由TA来治愈吧

脑极体

C++文件读写操作分析文本文件与二进制文件

CtrlX

c c++ 面向对象 8月月更 opp

陈大好:持续创造小而美的产品丨独立开发者 x 开放麦

声网

人工智能

每日一R「13」数据结构(四)闭包

Samson

学习笔记 8月月更 ​Rust

监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤

TakinTalks稳定性社区

高可用 稳定性 SRE 监控告警 大厂实践

Tomcat 的安装与环境配置

楠羽

开源 #开源

天翼云通过2022可信云安全首批云工作负载保护平台评估

极客天地

网站建设流程

源字节1号

网站开发

IPv6过渡技术的推进策略

穿过生命散发芬芳

ipv6 8月月更

汽车电子控制系统的构成

不脱发的程序猿

汽车电子 嵌入式软件 汽车电子控制系统

K8s小白?应用部署太难?看这篇就够了!

北京好雨科技有限公司

Kubernetes 云原生

程序员过中秋

楠羽

中秋节

详解CAN总线:高速CAN总线和低速CAN总线的特性

不脱发的程序猿

汽车电子 ISO 11898 高速CAN总线 低速CAN总线 CAN总线

开放下载 | 飞天技术峰会-云原生加速应用构建分论坛资料开放下载

阿里巴巴中间件

阿里云 阿里云云原生

[教你做小游戏] 用86行代码写一个联机五子棋WebSocket后端

HullQin

CSS JavaScript html 前端 8月月更

云原生2.0构建数字化

科技云未来

中国掀起数字化浪潮的4个显著变化

优秀

数字化转型 数字化

华为云助力论坛服务

科技云未来

leetcode 697. Degree of an Array 数组的度(简单)

okokabcd

LeetCode 数据结构与算法

FlyFish|前端数据可视化开发避坑指南(二)

云智慧AIOps社区

JavaScript 大前端 低代码 数据可视化 大屏可视化

秒云获得阿里云首批产品生态集成认证,携手阿里云共建云原生智能运维生态服务

阿里巴巴中间件

阿里云 云原生 云原生加速器

融云,把企业文化放在“场景”里

融云 RongCloud

企业文化

华为云数字化

科技云未来

KubeCon NA 2025:Salesforce通向AIOps和Agentic AI之路_AI&大模型_InfoQ精选文章