50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

AI 时代下的云原生技术,大厂有哪些前沿实践经验?

  • 2025-05-08
    北京
  • 本文字数:2165 字

    阅读完需:约 7 分钟

大小:1.11M时长:06:28
AI 时代下的云原生技术,大厂有哪些前沿实践经验?

当前,AI 和云原生技术已经成为推动企业创新与发展的两大核心力量。随着 AI 模型的复杂度不断增大,企业正面临前所未有的技术挑战。一方面,AI 模型对计算资源的需求弹性极大,传统的资源管理方式难以满足其动态变化的需求;另一方面,大规模集群的调度性能和质量问题、云原生系统的可观测性不足,以及大模型应对突发流量的挑战等问题,也给工程师们带来了巨大的压力。


5 月 17 日,字节跳动云原生技术沙龙将在字节上海办公区正式启动。本次沙龙汇聚了多位来自字节跳动、哔哩哔哩、蚂蚁集团的技术大咖,共同探讨 AI 时代下的云原生技术,有哪些前沿解决方案与实践经验。


立即报名

📍 时间:2025 年 5 月 17 日(周六)14:00-17:00

📍 地点:字节跳动上海工区(上海市杨浦区民府路 678 号新江湾广场 T2A 号楼 F1-01)

🔥 扫描下方二维码或点击"链接"立即报名🔥


精彩议题抢先看

议题一:AIBrix:专为 vLLM 打造的可扩展、高性价比控制面

  • 时间:14:00-14:30

  • 嘉宾:谢立广 Director of Engineering, ByteDance;徐乐 Researcher, ByteDance


2025 年 2 月 21 日,vLLM 通过官方博客宣布,由字节跳动开发的 AIBrix 大模型推理系统开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。


本次演讲将分享 AIBrix 推理系统的技术架构与创新点,展示 AIBrix 是如何帮助企业更加轻量、弹性地构建面向生产的 LLM 推理服务的。

议题二:哔哩哔哩在离线容器调度系统实践

  • 时间:14:30-15:00

  • 嘉宾:戴一帆 哔哩哔哩资深开发工程师


随着业务的快速增长,传统的调度方式在资源利用率、任务调度效率以及多场景适配性方面逐渐面临挑战。为此,哔哩哔哩进行了深度的技术优化与架构升级。


本次演讲将深入分享哔哩哔哩在离线容器调度系统中的实践经验,全面展示联邦调度架构设计、资源感知调度优化以及混部资源调度能力建设的实战成果,为行业提供高效调度与资源优化的参考范例。

议题三:Gödel Rescheduler:适用于云原生系统的全局最优重调度框架

  • 时间:15:00-15:30

  • 嘉宾:宋心怡 字节跳动云原生资深工程师


在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。为此,字节跳动研发了 Gödel Rescheduler——一个基于全局最优调度策略的重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。


本次演讲将分享 Gödel Rescheduler 的设计理念与技术实现,揭示其如何通过全局最优调度策略,解决传统调度中的资源碎片化和任务摆放不合理问题。

议题四:Karpor: 开启 AI 时代下可靠、安全、智能的多集群洞察之旅

  • 时间:15:50-16:20

  • 嘉宾:陈在 蚂蚁集团云原生技术专家,KusionStack 开源负责人、Maintainer


随着云原生技术的普及和企业多云战略的推进,Kubernetes 集群的管理面临跨云和多集群场景的一些新挑战。同时,AI 的快速发展为提升运维效率提供了新思路。蚂蚁集团开发的 Karpor,作为 KusionStack 平台工程技术栈的一环,致力于简化 Kubernetes 的复杂性。以数据面作为切入点,优化多集群运维体验,降低使用门槛,结合高效的可视化洞察手段和 AI 能力提升人效。


本次演讲将分享 Karpor 的设计理念与实践,探讨如何助力企业高效拥抱云原生与 AI 的融合。

圆桌对话


在圆桌对话环节,将齐聚多位技术大咖,围绕大规模集群的调度性能和调度质量问题、云原生可观测性的现状与未来、云原生基础设置如何助力大模型应对突发流量挑战、AI 浪潮下工程师工作方式的革新与坚守多个热门话题展开讨论。

议题一:如何平衡大规模集群的调度性能和调度质量问题


大规模集群的调度在追求高性能的同时,也面临着调度质量的挑战。一方面,高效的调度算法能够快速分配资源,提升任务执行速度;另一方面,调度质量的高低直接影响系统的稳定性和资源利用率。


围绕这一话题,嘉宾们将深入探讨如何在大规模集群中平衡调度性能与调度质量,分享他们在实际应用中的经验与策略。

议题二:云原生可观测性的现状与未来


云原生架构的复杂性使得可观测性成为保障系统稳定运行的关键。当前,云原生可观测性已经从基础的日志、指标和追踪发展到更智能化的分析和预测。展望未来,可观测性的发展仍面临诸多挑战。


围绕这一话题,嘉宾们将分享云原生可观测性的现状、面临的挑战以及未来的发展方向。

议题三:云原生基础设置如何助力大模型应对突发流量挑战


大模型的训练和推理对计算资源的需求极高,尤其是面对突发流量时,云原生基础设施的弹性伸缩能力至关重要。通过容器化和编排技术,云原生基础设施可以快速分配资源,确保大模型的稳定运行。


围绕这一话题,嘉宾们将探讨云原生基础设施如何支持大模型应对突发流量挑战,分享他们在实际部署中的经验和最佳实践。

议题四:AI 浪潮下工程师工作方式的革新与坚守


AI 技术的快速发展正在深刻改变工程师的工作方式。一方面,自动化工具和智能助手能够帮助工程师更高效地完成任务;另一方面,工程师需要不断提升自身的 AI 素养,以更好地利用这些工具。


围绕这一话题,嘉宾们将探讨 AI 浪潮下工程师工作方式的革新与坚守,分享他们对于 AI 时代工程师能力的看法。


点击【链接】报名,与技术领袖共同探索 AI 时代下的云原生技术。5 月 17 日,上海见!


2025-05-08 10:047562

评论

发布
暂无评论

Android C++系列:Linux信号(三)

轻口味

c++ android 28天写作 12月日更

Python Qt GUI设计:QCalendar日历类和QDateTimeEdit时间类(基础篇—20)

不脱发的程序猿

Python qt GUI设计 QCalendar日历类 QDateTimeEdit时间类

Java 项目中使用 Resilience4j 框架实现隔断机制/断路器

码语者

Java circuit break 断路器 Resilience4j 隔断机制

深度参与,亲身体验,谨慎接受

mtfelix

28天写作 必然 未来趋势 2022开年学习

微博系统中“微博评论”的高可用高性能架构

AHUI

「架构实战营」

模块五作业 ”微博评论“的高性能高可用计算架构

小朱

架构实战营

反脆弱漫谈

木风

质量管理 技术管理 28天写作

王者荣耀商城异地多活架构设计

胡颖

架构实战营

云原生:详解|容器云平台应用解析

息之

容器安全 容器应用

高层与基层思考上的差异与解决办法

光环PMO社群

项目管理

在AI与信息交互之间:QQ 浏览器的边界探索

脑极体

模块九作业

Geek_fc100d

「架构实战营」

12.01碎碎念

穿过生命散发芬芳

28天写作

[架构实战营] 模块五作业

张祥

架构实战营

由《组织行为学》讲义想到的两个问题(1/28)

赵新龙

TGO鲲鹏会 28天写作

架构实战总结

Geek_fc100d

「架构实战营」

坚持不下去,你缺的可能不是意志力

Justin

个人成长 心理学 28天写作

Java问题排查分享

捉虫大师

Java 问题排查

基于云的技术架构设计实践-第0篇

hackstoic

云计算 架构 云原生 创业公司 签约计划第二季

新公司安排的工作做不来怎么办?是不是该离职了?

石云升

28天写作 职场经验 12月日更

Java基础系列:反射

正向成长

Java 反射

模块五作业

ks

架构实战营

微服务架构细节

卢卡多多

28天写作 12月日更

和12岁小同志搞创客开发:手撕代码,做一款节拍电子鼓

不脱发的程序猿

少儿编程 DIY 智能硬件 创客开发 Arduino

10个问题解答火热的元宇宙概念

CECBC

继续跑步

wood

创业 跑步

31 K8S之StatefulSet控制器

穿过生命散发芬芳

k8s 28天写作 12月日更

TypeScript 之常见类型(上)

冴羽

JavaScript typescript 翻译 大前端

Mysql探索(一):B-Tree索引

程序员历小冰

MySQL 索引 28天写作

工业区块链与关键关联技术融合创新

CECBC

毕业设计-电商秒杀系统

小智

「架构实战营」

AI 时代下的云原生技术,大厂有哪些前沿实践经验?_云原生_凌敏_InfoQ精选文章