写点什么

AI 时代下的云原生技术,大厂有哪些前沿实践经验?

  • 2025-05-08
    北京
  • 本文字数:2165 字

    阅读完需:约 7 分钟

大小:1.11M时长:06:28
AI 时代下的云原生技术,大厂有哪些前沿实践经验?

当前,AI 和云原生技术已经成为推动企业创新与发展的两大核心力量。随着 AI 模型的复杂度不断增大,企业正面临前所未有的技术挑战。一方面,AI 模型对计算资源的需求弹性极大,传统的资源管理方式难以满足其动态变化的需求;另一方面,大规模集群的调度性能和质量问题、云原生系统的可观测性不足,以及大模型应对突发流量的挑战等问题,也给工程师们带来了巨大的压力。


5 月 17 日,字节跳动云原生技术沙龙将在字节上海办公区正式启动。本次沙龙汇聚了多位来自字节跳动、哔哩哔哩、蚂蚁集团的技术大咖,共同探讨 AI 时代下的云原生技术,有哪些前沿解决方案与实践经验。


立即报名

📍 时间:2025 年 5 月 17 日(周六)14:00-17:00

📍 地点:字节跳动上海工区(上海市杨浦区民府路 678 号新江湾广场 T2A 号楼 F1-01)

🔥 扫描下方二维码或点击"链接"立即报名🔥


精彩议题抢先看

议题一:AIBrix:专为 vLLM 打造的可扩展、高性价比控制面

  • 时间:14:00-14:30

  • 嘉宾:谢立广 Director of Engineering, ByteDance;徐乐 Researcher, ByteDance


2025 年 2 月 21 日,vLLM 通过官方博客宣布,由字节跳动开发的 AIBrix 大模型推理系统开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。


本次演讲将分享 AIBrix 推理系统的技术架构与创新点,展示 AIBrix 是如何帮助企业更加轻量、弹性地构建面向生产的 LLM 推理服务的。

议题二:哔哩哔哩在离线容器调度系统实践

  • 时间:14:30-15:00

  • 嘉宾:戴一帆 哔哩哔哩资深开发工程师


随着业务的快速增长,传统的调度方式在资源利用率、任务调度效率以及多场景适配性方面逐渐面临挑战。为此,哔哩哔哩进行了深度的技术优化与架构升级。


本次演讲将深入分享哔哩哔哩在离线容器调度系统中的实践经验,全面展示联邦调度架构设计、资源感知调度优化以及混部资源调度能力建设的实战成果,为行业提供高效调度与资源优化的参考范例。

议题三:Gödel Rescheduler:适用于云原生系统的全局最优重调度框架

  • 时间:15:00-15:30

  • 嘉宾:宋心怡 字节跳动云原生资深工程师


在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。为此,字节跳动研发了 Gödel Rescheduler——一个基于全局最优调度策略的重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。


本次演讲将分享 Gödel Rescheduler 的设计理念与技术实现,揭示其如何通过全局最优调度策略,解决传统调度中的资源碎片化和任务摆放不合理问题。

议题四:Karpor: 开启 AI 时代下可靠、安全、智能的多集群洞察之旅

  • 时间:15:50-16:20

  • 嘉宾:陈在 蚂蚁集团云原生技术专家,KusionStack 开源负责人、Maintainer


随着云原生技术的普及和企业多云战略的推进,Kubernetes 集群的管理面临跨云和多集群场景的一些新挑战。同时,AI 的快速发展为提升运维效率提供了新思路。蚂蚁集团开发的 Karpor,作为 KusionStack 平台工程技术栈的一环,致力于简化 Kubernetes 的复杂性。以数据面作为切入点,优化多集群运维体验,降低使用门槛,结合高效的可视化洞察手段和 AI 能力提升人效。


本次演讲将分享 Karpor 的设计理念与实践,探讨如何助力企业高效拥抱云原生与 AI 的融合。

圆桌对话


在圆桌对话环节,将齐聚多位技术大咖,围绕大规模集群的调度性能和调度质量问题、云原生可观测性的现状与未来、云原生基础设置如何助力大模型应对突发流量挑战、AI 浪潮下工程师工作方式的革新与坚守多个热门话题展开讨论。

议题一:如何平衡大规模集群的调度性能和调度质量问题


大规模集群的调度在追求高性能的同时,也面临着调度质量的挑战。一方面,高效的调度算法能够快速分配资源,提升任务执行速度;另一方面,调度质量的高低直接影响系统的稳定性和资源利用率。


围绕这一话题,嘉宾们将深入探讨如何在大规模集群中平衡调度性能与调度质量,分享他们在实际应用中的经验与策略。

议题二:云原生可观测性的现状与未来


云原生架构的复杂性使得可观测性成为保障系统稳定运行的关键。当前,云原生可观测性已经从基础的日志、指标和追踪发展到更智能化的分析和预测。展望未来,可观测性的发展仍面临诸多挑战。


围绕这一话题,嘉宾们将分享云原生可观测性的现状、面临的挑战以及未来的发展方向。

议题三:云原生基础设置如何助力大模型应对突发流量挑战


大模型的训练和推理对计算资源的需求极高,尤其是面对突发流量时,云原生基础设施的弹性伸缩能力至关重要。通过容器化和编排技术,云原生基础设施可以快速分配资源,确保大模型的稳定运行。


围绕这一话题,嘉宾们将探讨云原生基础设施如何支持大模型应对突发流量挑战,分享他们在实际部署中的经验和最佳实践。

议题四:AI 浪潮下工程师工作方式的革新与坚守


AI 技术的快速发展正在深刻改变工程师的工作方式。一方面,自动化工具和智能助手能够帮助工程师更高效地完成任务;另一方面,工程师需要不断提升自身的 AI 素养,以更好地利用这些工具。


围绕这一话题,嘉宾们将探讨 AI 浪潮下工程师工作方式的革新与坚守,分享他们对于 AI 时代工程师能力的看法。


点击【链接】报名,与技术领袖共同探索 AI 时代下的云原生技术。5 月 17 日,上海见!


2025-05-08 10:047120

评论

发布
暂无评论

mac苹果电脑系统优化工具:CleanMyMac X for mac 中文激活版

你的猪会飞吗

mac破解软件下载 CleanMyMac X破解版 CleanMyMac X中文

一文说清楚ETL与Kafka如何实现集成

RestCloud

kafka 数据处理 分析 ETL 数据集成

虚拟人,如何用好这个“外挂”?一定要看看这本书!

博文视点Broadview

虚拟币交易平台开发指南:打造安全高效的虚拟货币交易系统

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 代币开发

mcgs笔记 用户 登录登出查看用户信息

万里无云万里天

自动化 HMI mcgs

开放原子开源生态大会OpenHarmony生态主题演讲报名开启

OpenHarmony开发者

OpenHarmony

区块链DApp开发:选择正确公链的重要性

区块链软件开发推广运营

交易所开发 dapp开发 NFT开发 公链开发 代币开发

基于京东API返回值的商家商品管理策略优化

代码忍者

API 接口 API 测试 pinduoduo API

金融安全架构设计中的反思

I

安全架构 金融服务安全 安全架构设计

Amazon Bedrock 模型微调实践(二):数据准备篇

亚马逊云科技 (Amazon Web Services)

人工智能

LED厂家告诉您LED玻璃幕墙如何设计

Dylan

设计 艺术 LED LED display LED显示屏

mcgs笔记 用户 查看用户与用户组

万里无云万里天

自动化 HMI mcgs

中国信通院可信人工智能基础平台(AI Infra)评估工作正式启动

中国信通院AI Infra工作组

“前沿思享会:探索AI+材料新边界”闭门研讨会顺利召开

中国信通院AI Infra工作组

Go 必知必会:Interface灵活而强大的类型系统

王中阳Go

接口 interface 数据类型 GO语言编程

语音识别与语音控制

芯动大师

语音控制

可信AI评估|中国信通院可信AI“大模型一体机”第二批评估正式启动

中国信通院AI Infra工作组

活动预告:“大模型时代下AI中台”主题沙龙

中国信通院AI Infra工作组

VMware Live Site Recovery 9.0.2 发布下载,新增功能概览

sysin

vmware esxi

故障测试入门指南

FunTester

AI 时代下的云原生技术,大厂有哪些前沿实践经验?_云原生_凌敏_InfoQ精选文章