2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

KubeCon NA 2025:Salesforce 通向 AIOps 和 Agentic AI 之路

作者:Matthew Liste

  • 2025-11-19
    北京
  • 本文字数:1476 字

    阅读完需:约 5 分钟

大小:752.46K时长:04:16
KubeCon NA 2025:Salesforce通向AIOps和Agentic AI之路

AIOps 和 Agentic AI 技术可以助力开发解决方案,智能分析 Kubernetes 集群的健康状况,自动诊断平台问题,并在最少人为干预的情况下协调解决问题。亚马逊云科技的 Vikram Venkataraman 和 Salesforce 的 Srikanth Rajan 在 2025 年北美 KubeCon + CloudNativeCon会议上讨论了 Salesforce 使用 AIOps 和 AI Agent 实现自愈系统的途径。

 

AIOps 架构是由 Salesforce 的团队开发的,该团队负责开发和支持管理基础设施的软件,以支持 Hyperforce Kubernetes 平台。这是一个在多个云(亚马逊云科技、GCP、Alicloud)上构建的托管 Kubernetes 平台,提供命名空间即服务。他们的 K8s 平台的运营规模包括 1400 个 K8s 集群、数百万的 pods、数千个计算节点、40 多个操作器和集成以及 200 多个监控插件。演讲者强调,他们估计在未来几年内容量将增加五倍。解决方案的总体目标是让应用团队专注于业务需求,而不是陷入基础设施的负担。

 

他们讨论了 Kubernetes 平台运营的方法,利用生成式 AI 和多 Agent 协作创建一个集群管理系统来排查 Kubernetes 集群,减少关键集群问题的平均识别时间(MTTI)和平均解决时间(MTTR)。Agentic AI 解决方案由一系列具有特定目标的 AI Agent 组成,帮助 AIOps 平台和工具从遥测平台检索数据。Agent 对其 K8s 环境执行操作,如在升级过程中遇到任何问题时回滚升级。

 

Venkataraman 和 Rajan 讨论了构建智能运维 AI 的挑战,例如不同的 Agent 应该如何相互通信,Agent 必须具备哪些护栏和安全权限才能只根据指导方针执行。他们讨论了解决方案架构的细节,该架构托管在亚马逊云科技云平台上,包括供工程师使用的 AIOps UI、协作 Agent、Amazon Prometheus 及其 Agent、Amazon EKS、帮助提供 MTTI 指标的 k8sgpt Operator,以及 ArgoCD Controller。

 

然后,演讲者分享了他们的技术栈细节,展示了不同层次的开源技术和自研工具:

 

  • 底层(Kubernetes 云平台,如 Amazon EKS、自管 K8s、Google GKE 和 Alicloud ACK)

  • 标准能力:存储、网络、自动扩展、DNS、负载均衡、网格和入口。这一层使用的技术包括 Istio、Cluster Autoscaler、CSI、OPA、Ingress、CNI、LBC 和 CoreDNS。

  • 自定义集成层包括身份、密钥管理、护栏和日志收集等能力。

  • 平台能力层由平台抽象、部署编排、生命周期自动化、可见性与可观察性、弹性、成本管理和最佳实践执行等组件组成。这一层的工具包括 Argo、Kyverno、Spinnaker、Helm、Kube Magic Mirror、Sloop 和 Periscope。

  • 最后,API 层提供客户访问服务,并托管控制平面、API 和自助服务门户。

 

为了解决工具孤立、工作流静态、反馈循环有限等问题,团队开发了基于 AI Agent 的基础设施管理解决方案。他们从小规模开始,引入了一些 AI Agent,如 AIops Agent(值班报告 Agent)、与 Slack 团队频道集成的 Kubectl Agent,以及将自然语言问题翻译成kubectl命令,提供 Slack 上的调试信息。还有实时站点分析 Agent,通过分析 SLA 未命中等指标自动化每周平台可用性审查流程,并生成根本原因分析(RCA)洞察。

 

演讲者建议在采用基于 AI Agent 的解决方案时逐步实现自主性。他们最初的方法是将人类纳入循环,以确保问题解决的安全性和准确性。一旦团队对 AI Agent 有了信心,他们开始给予 Agent 解决方案更多的自主权。

 

他们总结讲话时表示,团队只是触及了 AI 技术可能性的冰山一角,AI Agent 在其他几个用例中也很有用。他们的 AIOps 程序路线图强调了扩展 AI Agent 以消除 80%的手动工作,一个知识图谱,包含所有信息以连接整体系统中不同组件的点,以及使用 AI 检测和排查性能问题。

 

有关此会议和其他会议议程的更多信息,请查看会议网站和日程安排。

 

原文链接:KubeCon NA 2025 - Salesforce’s Approach to Self-Healing Using AIOps and Agentic AI

2025-11-19 10:222677

评论

发布
暂无评论

IoT物联网平台「设备影子」开发实战——实践类

阿里云AIoT

JavaScript json 物联网 API 储存

基于云基础设施快速部署 RocketMQ 5.0 集群

Apache RocketMQ

RocketMQ 云原生 消息队列

EMQ携“云边协同IIoT解决方案”亮相2022世界工业互联网产业大会

EMQ映云科技

人工智能 物联网 IoT 云边协同 企业号 1 月 PK 榜

一文了解华为FusionInsight MRS HBase的集群隔离方案RSGroup

华为云开发者联盟

大数据 后端 华为云 企业号 1 月 PK 榜

2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

OneFlow

人工智能 深度学习

YMatrix v5.0 发布:138 项深度优化,重塑集群架构,实现性能及高可用性全方位提升!

YMatrix 超融合数据库

OLAP OLTP 超融合数据库 数据库架构设计 YMatrix

站酷基于服务网格ASM的生产实践

阿里巴巴云原生

阿里云 云原生 服务网格

重磅发布丨从云原生到Serverless,先行一步看见更大的技术想象力

阿里巴巴云原生

阿里云 Serverless 云原生

2022大厂投资盘点:最大的投资就是减少投资

ToB行业头条

高并发环境下构建缓存服务,你需要注意这6点

华为云开发者联盟

高并发 开发 华为云 企业号 1 月 PK 榜

2022 Apache APISIX 年度记忆

API7.ai 技术团队

api 网关 APISIX 年终盘点 apache 社区

IM通讯协议专题学习(七):手把手教你如何在NodeJS中从零使用Protobuf

JackJiang

即时通讯 protobuf im开发

Apache Tomcat 存在 JsonErrorReportValve 注入漏洞(CVE-2022-45143)

墨菲安全

安全漏洞 CVE

累计装机超过300万套 欧拉操作系统跨越生态拐点

极客天地

DTALK直播预约 | 金融行业嘉宾分享:金融机构数据治理实践路径

袋鼠云数栈

金融数字化为何需要低代码开发平台

力软低代码开发平台

云渲染市场安全吗?如何保证数据安全、财产安全?

Renderbus瑞云渲染农场

云渲染 云渲染农场 云渲染安全

Apache RocketMQ 斩获 InfoQ 2022 年度十大开源新锐项目

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

直播 | StarRocks 联合腾讯云分享 EMR-StarRocks 的降本增效之路

StarRocks

数据库

为iframe正名,你可能并不需要微前端

阿里巴巴终端技术

前端 微前端 iframe

强强联手 | 尚硅谷&腾讯云EMR离线数仓教程发布

小谷哥

基于开源体系的云原生微服务治理实践与探索

阿里巴巴云原生

阿里云 开源 云原生 service mesh

划重点,2023 年最值得关注的 8 大技术趋势

PreMaint

人工智能 云计算 5G 技术趋势 元宇宙

IoT物联网设备「固件升级」OTA,「资源包更新」最佳实践——实践类

阿里云AIoT

运维 物联网 数据格式

安畅SmartOps混合云平台架构的演进之道

安畅Anchnet

云原生

2023 年openEuler 社区技术委员会增选,新增2位委员

openEuler

Linux 开源 操作系统 openEuler 资讯

KubeCon NA 2025:Salesforce通向AIOps和Agentic AI之路_AI&大模型_InfoQ精选文章