写点什么

AI 时代下的云原生技术,大厂有哪些前沿实践经验?

  • 2025-05-08
    北京
  • 本文字数:2165 字

    阅读完需:约 7 分钟

大小:1.11M时长:06:28
AI 时代下的云原生技术,大厂有哪些前沿实践经验?

当前,AI 和云原生技术已经成为推动企业创新与发展的两大核心力量。随着 AI 模型的复杂度不断增大,企业正面临前所未有的技术挑战。一方面,AI 模型对计算资源的需求弹性极大,传统的资源管理方式难以满足其动态变化的需求;另一方面,大规模集群的调度性能和质量问题、云原生系统的可观测性不足,以及大模型应对突发流量的挑战等问题,也给工程师们带来了巨大的压力。


5 月 17 日,字节跳动云原生技术沙龙将在字节上海办公区正式启动。本次沙龙汇聚了多位来自字节跳动、哔哩哔哩、蚂蚁集团的技术大咖,共同探讨 AI 时代下的云原生技术,有哪些前沿解决方案与实践经验。


立即报名

📍 时间:2025 年 5 月 17 日(周六)14:00-17:00

📍 地点:字节跳动上海工区(上海市杨浦区民府路 678 号新江湾广场 T2A 号楼 F1-01)

🔥 扫描下方二维码或点击"链接"立即报名🔥


精彩议题抢先看

议题一:AIBrix:专为 vLLM 打造的可扩展、高性价比控制面

  • 时间:14:00-14:30

  • 嘉宾:谢立广 Director of Engineering, ByteDance;徐乐 Researcher, ByteDance


2025 年 2 月 21 日,vLLM 通过官方博客宣布,由字节跳动开发的 AIBrix 大模型推理系统开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。


本次演讲将分享 AIBrix 推理系统的技术架构与创新点,展示 AIBrix 是如何帮助企业更加轻量、弹性地构建面向生产的 LLM 推理服务的。

议题二:哔哩哔哩在离线容器调度系统实践

  • 时间:14:30-15:00

  • 嘉宾:戴一帆 哔哩哔哩资深开发工程师


随着业务的快速增长,传统的调度方式在资源利用率、任务调度效率以及多场景适配性方面逐渐面临挑战。为此,哔哩哔哩进行了深度的技术优化与架构升级。


本次演讲将深入分享哔哩哔哩在离线容器调度系统中的实践经验,全面展示联邦调度架构设计、资源感知调度优化以及混部资源调度能力建设的实战成果,为行业提供高效调度与资源优化的参考范例。

议题三:Gödel Rescheduler:适用于云原生系统的全局最优重调度框架

  • 时间:15:00-15:30

  • 嘉宾:宋心怡 字节跳动云原生资深工程师


在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。为此,字节跳动研发了 Gödel Rescheduler——一个基于全局最优调度策略的重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。


本次演讲将分享 Gödel Rescheduler 的设计理念与技术实现,揭示其如何通过全局最优调度策略,解决传统调度中的资源碎片化和任务摆放不合理问题。

议题四:Karpor: 开启 AI 时代下可靠、安全、智能的多集群洞察之旅

  • 时间:15:50-16:20

  • 嘉宾:陈在 蚂蚁集团云原生技术专家,KusionStack 开源负责人、Maintainer


随着云原生技术的普及和企业多云战略的推进,Kubernetes 集群的管理面临跨云和多集群场景的一些新挑战。同时,AI 的快速发展为提升运维效率提供了新思路。蚂蚁集团开发的 Karpor,作为 KusionStack 平台工程技术栈的一环,致力于简化 Kubernetes 的复杂性。以数据面作为切入点,优化多集群运维体验,降低使用门槛,结合高效的可视化洞察手段和 AI 能力提升人效。


本次演讲将分享 Karpor 的设计理念与实践,探讨如何助力企业高效拥抱云原生与 AI 的融合。

圆桌对话


在圆桌对话环节,将齐聚多位技术大咖,围绕大规模集群的调度性能和调度质量问题、云原生可观测性的现状与未来、云原生基础设置如何助力大模型应对突发流量挑战、AI 浪潮下工程师工作方式的革新与坚守多个热门话题展开讨论。

议题一:如何平衡大规模集群的调度性能和调度质量问题


大规模集群的调度在追求高性能的同时,也面临着调度质量的挑战。一方面,高效的调度算法能够快速分配资源,提升任务执行速度;另一方面,调度质量的高低直接影响系统的稳定性和资源利用率。


围绕这一话题,嘉宾们将深入探讨如何在大规模集群中平衡调度性能与调度质量,分享他们在实际应用中的经验与策略。

议题二:云原生可观测性的现状与未来


云原生架构的复杂性使得可观测性成为保障系统稳定运行的关键。当前,云原生可观测性已经从基础的日志、指标和追踪发展到更智能化的分析和预测。展望未来,可观测性的发展仍面临诸多挑战。


围绕这一话题,嘉宾们将分享云原生可观测性的现状、面临的挑战以及未来的发展方向。

议题三:云原生基础设置如何助力大模型应对突发流量挑战


大模型的训练和推理对计算资源的需求极高,尤其是面对突发流量时,云原生基础设施的弹性伸缩能力至关重要。通过容器化和编排技术,云原生基础设施可以快速分配资源,确保大模型的稳定运行。


围绕这一话题,嘉宾们将探讨云原生基础设施如何支持大模型应对突发流量挑战,分享他们在实际部署中的经验和最佳实践。

议题四:AI 浪潮下工程师工作方式的革新与坚守


AI 技术的快速发展正在深刻改变工程师的工作方式。一方面,自动化工具和智能助手能够帮助工程师更高效地完成任务;另一方面,工程师需要不断提升自身的 AI 素养,以更好地利用这些工具。


围绕这一话题,嘉宾们将探讨 AI 浪潮下工程师工作方式的革新与坚守,分享他们对于 AI 时代工程师能力的看法。


点击【链接】报名,与技术领袖共同探索 AI 时代下的云原生技术。5 月 17 日,上海见!


2025-05-08 10:047597

评论

发布
暂无评论

DeepSeek 最新推理模型 R1-Lite:一场数学题的死胡同之旅

测吧(北京)科技有限公司

测试

软件测试的未来:如何跨越自动化到自主测试的鸿沟

测吧(北京)科技有限公司

测试

人工智能在数字化转型中的角色:从数据分析到智能决策

天津汇柏科技有限公司

数字化转型 AI 人工智能

模型驱动测试 (MBT):从概念到实践的全面解析

测吧(北京)科技有限公司

测试

Docker 容器网络模式详解:Bridge、Host 与 Container 的区别

测吧(北京)科技有限公司

测试

LibRaw Monochrome2DNG for Mac(DNG格式转换器)v1.7.1激活版

Rose

Docker 网络模式实战:从 Bridge 到 Host 再到 Container 的配置与应用

测吧(北京)科技有限公司

测试

Paragon Hard Disk Manager永久激活 mac磁盘管理工具

Rose

Docker Compose 实战:如何使用 Docker Compose 进行多容器应用编排

测吧(北京)科技有限公司

测试

MIT、OpenAI震撼力作!AI自主发现人工生命,软件测试行业如何迎接未来挑战

测吧(北京)科技有限公司

测试

基于LangChain实现数据库操作的智能体

测吧(北京)科技有限公司

测试

AI口语练习App的技术难点

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

软件测试丨消息管道(Kafka)测试体系

测试人

软件测试

Affinity Photo(图像处理软件) v2.5.7中文直装版/便携版

Rose

Easy New File for Mac(右键增强工具)v5.8中文激活版

Rose

Native Instruments Traktor Pro:专业DJ混音新纪元,重塑音乐创作边界!

Rose

轻量级限流算法的实现,拿走即用!

伤感汤姆布利柏

sd-wan 网络加速: 未来网络优化的关键技术

宽炜网络

SD-WAN

右键鼠标助手专业版MouseBoost PRO for mac中文激活版

小玖_苹果Mac软件

什么时候选择 Docker,什么时候选择虚拟机?

测吧(北京)科技有限公司

测试

AI口语评测App的主要功能

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

分布式 UI 自动化测试环境部署实践:使用 Docker 快速构建测试平台

测吧(北京)科技有限公司

测试

1688 商品列表接口系列(1688 API)

tbapi

1688商品列表接口 1688API

探索模型驱动测试框架:GraphWalker 的自动化测试用例生成

测吧(北京)科技有限公司

测试

湖仓进化,极速统一|StarRocks 2024 社区年度报告

StarRocks

大数据 LakeHouse 湖仓一体 2024年终总结

AI 时代下的云原生技术,大厂有哪些前沿实践经验?_云原生_凌敏_InfoQ精选文章