限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

AI 时代下的云原生技术,大厂有哪些前沿实践经验?

  • 2025-05-08
    北京
  • 本文字数:2165 字

    阅读完需:约 7 分钟

大小:1.11M时长:06:28
AI 时代下的云原生技术,大厂有哪些前沿实践经验?

当前,AI 和云原生技术已经成为推动企业创新与发展的两大核心力量。随着 AI 模型的复杂度不断增大,企业正面临前所未有的技术挑战。一方面,AI 模型对计算资源的需求弹性极大,传统的资源管理方式难以满足其动态变化的需求;另一方面,大规模集群的调度性能和质量问题、云原生系统的可观测性不足,以及大模型应对突发流量的挑战等问题,也给工程师们带来了巨大的压力。


5 月 17 日,字节跳动云原生技术沙龙将在字节上海办公区正式启动。本次沙龙汇聚了多位来自字节跳动、哔哩哔哩、蚂蚁集团的技术大咖,共同探讨 AI 时代下的云原生技术,有哪些前沿解决方案与实践经验。


立即报名

📍 时间:2025 年 5 月 17 日(周六)14:00-17:00

📍 地点:字节跳动上海工区(上海市杨浦区民府路 678 号新江湾广场 T2A 号楼 F1-01)

🔥 扫描下方二维码或点击"链接"立即报名🔥


精彩议题抢先看

议题一:AIBrix:专为 vLLM 打造的可扩展、高性价比控制面

  • 时间:14:00-14:30

  • 嘉宾:谢立广 Director of Engineering, ByteDance;徐乐 Researcher, ByteDance


2025 年 2 月 21 日,vLLM 通过官方博客宣布,由字节跳动开发的 AIBrix 大模型推理系统开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。


本次演讲将分享 AIBrix 推理系统的技术架构与创新点,展示 AIBrix 是如何帮助企业更加轻量、弹性地构建面向生产的 LLM 推理服务的。

议题二:哔哩哔哩在离线容器调度系统实践

  • 时间:14:30-15:00

  • 嘉宾:戴一帆 哔哩哔哩资深开发工程师


随着业务的快速增长,传统的调度方式在资源利用率、任务调度效率以及多场景适配性方面逐渐面临挑战。为此,哔哩哔哩进行了深度的技术优化与架构升级。


本次演讲将深入分享哔哩哔哩在离线容器调度系统中的实践经验,全面展示联邦调度架构设计、资源感知调度优化以及混部资源调度能力建设的实战成果,为行业提供高效调度与资源优化的参考范例。

议题三:Gödel Rescheduler:适用于云原生系统的全局最优重调度框架

  • 时间:15:00-15:30

  • 嘉宾:宋心怡 字节跳动云原生资深工程师


在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。为此,字节跳动研发了 Gödel Rescheduler——一个基于全局最优调度策略的重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。


本次演讲将分享 Gödel Rescheduler 的设计理念与技术实现,揭示其如何通过全局最优调度策略,解决传统调度中的资源碎片化和任务摆放不合理问题。

议题四:Karpor: 开启 AI 时代下可靠、安全、智能的多集群洞察之旅

  • 时间:15:50-16:20

  • 嘉宾:陈在 蚂蚁集团云原生技术专家,KusionStack 开源负责人、Maintainer


随着云原生技术的普及和企业多云战略的推进,Kubernetes 集群的管理面临跨云和多集群场景的一些新挑战。同时,AI 的快速发展为提升运维效率提供了新思路。蚂蚁集团开发的 Karpor,作为 KusionStack 平台工程技术栈的一环,致力于简化 Kubernetes 的复杂性。以数据面作为切入点,优化多集群运维体验,降低使用门槛,结合高效的可视化洞察手段和 AI 能力提升人效。


本次演讲将分享 Karpor 的设计理念与实践,探讨如何助力企业高效拥抱云原生与 AI 的融合。

圆桌对话


在圆桌对话环节,将齐聚多位技术大咖,围绕大规模集群的调度性能和调度质量问题、云原生可观测性的现状与未来、云原生基础设置如何助力大模型应对突发流量挑战、AI 浪潮下工程师工作方式的革新与坚守多个热门话题展开讨论。

议题一:如何平衡大规模集群的调度性能和调度质量问题


大规模集群的调度在追求高性能的同时,也面临着调度质量的挑战。一方面,高效的调度算法能够快速分配资源,提升任务执行速度;另一方面,调度质量的高低直接影响系统的稳定性和资源利用率。


围绕这一话题,嘉宾们将深入探讨如何在大规模集群中平衡调度性能与调度质量,分享他们在实际应用中的经验与策略。

议题二:云原生可观测性的现状与未来


云原生架构的复杂性使得可观测性成为保障系统稳定运行的关键。当前,云原生可观测性已经从基础的日志、指标和追踪发展到更智能化的分析和预测。展望未来,可观测性的发展仍面临诸多挑战。


围绕这一话题,嘉宾们将分享云原生可观测性的现状、面临的挑战以及未来的发展方向。

议题三:云原生基础设置如何助力大模型应对突发流量挑战


大模型的训练和推理对计算资源的需求极高,尤其是面对突发流量时,云原生基础设施的弹性伸缩能力至关重要。通过容器化和编排技术,云原生基础设施可以快速分配资源,确保大模型的稳定运行。


围绕这一话题,嘉宾们将探讨云原生基础设施如何支持大模型应对突发流量挑战,分享他们在实际部署中的经验和最佳实践。

议题四:AI 浪潮下工程师工作方式的革新与坚守


AI 技术的快速发展正在深刻改变工程师的工作方式。一方面,自动化工具和智能助手能够帮助工程师更高效地完成任务;另一方面,工程师需要不断提升自身的 AI 素养,以更好地利用这些工具。


围绕这一话题,嘉宾们将探讨 AI 浪潮下工程师工作方式的革新与坚守,分享他们对于 AI 时代工程师能力的看法。


点击【链接】报名,与技术领袖共同探索 AI 时代下的云原生技术。5 月 17 日,上海见!


2025-05-08 10:046795

评论

发布
暂无评论

几种设计模式的使用场景

Acker飏

极客大学架构师训练营

架构师三期作业

老姜

单例模式的三种

王锟

第 3 周 - 学习总结

大海

百度CTO的故事中,藏着中国AI的底色

脑极体

命题作业—第三周

于江水

极客大学架构师训练营

第三周总结

Linuxer

第三章 课后作业

姜 某某

「架构师训练营」第 3 周作业

旭东(Frank)

极客大学架构师训练营 作业

架构师训练营——第三周作业

jiangnanage

单例模式和组合模式练习

jason

架构师训练营 第三周 作业

一雄

极客大学架构师训练营 作业 第三周

学习总结—第三周

于江水

极客大学架构师训练营

架构师培训营第三周总结

王锟

第三周作业

赵龙

第三周作业

田振宇

架构师训练营第三周课后作业

不谈

极客大学架构师训练营

第三周学习总结

赵龙

「架构师训练营」第 3 周 学习总结

guoguo 👻

极客大学架构师训练营

Apache Zeppelin:可能是开源届最好的Flink开发平台

Geek_8o1tcx

大数据 flink 流计算 Zeppelin

老板不断加需求、改需求的四种应对方法

金刚小书童

项目管理 需求管理

新基建核心技术人才缺口将达420万

CECBC

新基建 人才缺口 核心技术人才

关于区块链的那些事,看完可以防忽悠

CECBC

分布式 区块链技术 共识与信任

案例篇:服务吞吐量下降很厉害,怎么分析?

程序员老王

设计模式是架构师的必备武器

老姜

探探上当代单身青年的倔强

脑极体

数据库周刊29│2020数据库研究报告;Oracle取消今年技术大会;腾讯云DBbridge发布支持一键迁库;饿了么迁至阿里云;PG数组查询;Oracle被比特币勒索;DM8 安全管理…

墨天轮

MySQL 数据库 postgresql 腾讯云 阿里云

架构师训练营第三周学习总结

不谈

极客大学架构师训练营

职能合约将如何在未来掀起一场革命?

CECBC

智能合约 区块链技术 去中心化 防篡改 自动执行

环信大学:AI赋能万亿"618",0成本轻松5步开启您的智慧客服之旅

DT极客

架构师训练营第三周课后作业

Cloud.

AI 时代下的云原生技术,大厂有哪些前沿实践经验?_云原生_凌敏_InfoQ精选文章