写点什么

AI 时代下的云原生技术,大厂有哪些前沿实践经验?

  • 2025-05-08
    北京
  • 本文字数:2165 字

    阅读完需:约 7 分钟

大小:1.11M时长:06:28
AI 时代下的云原生技术,大厂有哪些前沿实践经验?

当前,AI 和云原生技术已经成为推动企业创新与发展的两大核心力量。随着 AI 模型的复杂度不断增大,企业正面临前所未有的技术挑战。一方面,AI 模型对计算资源的需求弹性极大,传统的资源管理方式难以满足其动态变化的需求;另一方面,大规模集群的调度性能和质量问题、云原生系统的可观测性不足,以及大模型应对突发流量的挑战等问题,也给工程师们带来了巨大的压力。


5 月 17 日,字节跳动云原生技术沙龙将在字节上海办公区正式启动。本次沙龙汇聚了多位来自字节跳动、哔哩哔哩、蚂蚁集团的技术大咖,共同探讨 AI 时代下的云原生技术,有哪些前沿解决方案与实践经验。


立即报名

📍 时间:2025 年 5 月 17 日(周六)14:00-17:00

📍 地点:字节跳动上海工区(上海市杨浦区民府路 678 号新江湾广场 T2A 号楼 F1-01)

🔥 扫描下方二维码或点击"链接"立即报名🔥


精彩议题抢先看

议题一:AIBrix:专为 vLLM 打造的可扩展、高性价比控制面

  • 时间:14:00-14:30

  • 嘉宾:谢立广 Director of Engineering, ByteDance;徐乐 Researcher, ByteDance


2025 年 2 月 21 日,vLLM 通过官方博客宣布,由字节跳动开发的 AIBrix 大模型推理系统开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。


本次演讲将分享 AIBrix 推理系统的技术架构与创新点,展示 AIBrix 是如何帮助企业更加轻量、弹性地构建面向生产的 LLM 推理服务的。

议题二:哔哩哔哩在离线容器调度系统实践

  • 时间:14:30-15:00

  • 嘉宾:戴一帆 哔哩哔哩资深开发工程师


随着业务的快速增长,传统的调度方式在资源利用率、任务调度效率以及多场景适配性方面逐渐面临挑战。为此,哔哩哔哩进行了深度的技术优化与架构升级。


本次演讲将深入分享哔哩哔哩在离线容器调度系统中的实践经验,全面展示联邦调度架构设计、资源感知调度优化以及混部资源调度能力建设的实战成果,为行业提供高效调度与资源优化的参考范例。

议题三:Gödel Rescheduler:适用于云原生系统的全局最优重调度框架

  • 时间:15:00-15:30

  • 嘉宾:宋心怡 字节跳动云原生资深工程师


在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。为此,字节跳动研发了 Gödel Rescheduler——一个基于全局最优调度策略的重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。


本次演讲将分享 Gödel Rescheduler 的设计理念与技术实现,揭示其如何通过全局最优调度策略,解决传统调度中的资源碎片化和任务摆放不合理问题。

议题四:Karpor: 开启 AI 时代下可靠、安全、智能的多集群洞察之旅

  • 时间:15:50-16:20

  • 嘉宾:陈在 蚂蚁集团云原生技术专家,KusionStack 开源负责人、Maintainer


随着云原生技术的普及和企业多云战略的推进,Kubernetes 集群的管理面临跨云和多集群场景的一些新挑战。同时,AI 的快速发展为提升运维效率提供了新思路。蚂蚁集团开发的 Karpor,作为 KusionStack 平台工程技术栈的一环,致力于简化 Kubernetes 的复杂性。以数据面作为切入点,优化多集群运维体验,降低使用门槛,结合高效的可视化洞察手段和 AI 能力提升人效。


本次演讲将分享 Karpor 的设计理念与实践,探讨如何助力企业高效拥抱云原生与 AI 的融合。

圆桌对话


在圆桌对话环节,将齐聚多位技术大咖,围绕大规模集群的调度性能和调度质量问题、云原生可观测性的现状与未来、云原生基础设置如何助力大模型应对突发流量挑战、AI 浪潮下工程师工作方式的革新与坚守多个热门话题展开讨论。

议题一:如何平衡大规模集群的调度性能和调度质量问题


大规模集群的调度在追求高性能的同时,也面临着调度质量的挑战。一方面,高效的调度算法能够快速分配资源,提升任务执行速度;另一方面,调度质量的高低直接影响系统的稳定性和资源利用率。


围绕这一话题,嘉宾们将深入探讨如何在大规模集群中平衡调度性能与调度质量,分享他们在实际应用中的经验与策略。

议题二:云原生可观测性的现状与未来


云原生架构的复杂性使得可观测性成为保障系统稳定运行的关键。当前,云原生可观测性已经从基础的日志、指标和追踪发展到更智能化的分析和预测。展望未来,可观测性的发展仍面临诸多挑战。


围绕这一话题,嘉宾们将分享云原生可观测性的现状、面临的挑战以及未来的发展方向。

议题三:云原生基础设置如何助力大模型应对突发流量挑战


大模型的训练和推理对计算资源的需求极高,尤其是面对突发流量时,云原生基础设施的弹性伸缩能力至关重要。通过容器化和编排技术,云原生基础设施可以快速分配资源,确保大模型的稳定运行。


围绕这一话题,嘉宾们将探讨云原生基础设施如何支持大模型应对突发流量挑战,分享他们在实际部署中的经验和最佳实践。

议题四:AI 浪潮下工程师工作方式的革新与坚守


AI 技术的快速发展正在深刻改变工程师的工作方式。一方面,自动化工具和智能助手能够帮助工程师更高效地完成任务;另一方面,工程师需要不断提升自身的 AI 素养,以更好地利用这些工具。


围绕这一话题,嘉宾们将探讨 AI 浪潮下工程师工作方式的革新与坚守,分享他们对于 AI 时代工程师能力的看法。


点击【链接】报名,与技术领袖共同探索 AI 时代下的云原生技术。5 月 17 日,上海见!


2025-05-08 10:046555

评论

发布
暂无评论

ETL vs. ELT:数据集成的最佳实践是什么?

tapdata

etlelt区别 什么是ETL 什么是ELT 数据集成最佳实践

SLS 数据加工全面升级,集成 SPL 语法

阿里巴巴云原生

阿里云 云原生 服务日志

如何从自建开源 Prometheus 迁移到阿里云托管 Prometheus 服务

阿里巴巴云原生

阿里云 云原生 Prometheus

你在找提升效率的解决方案还是追求效果的解决方案

客户在哪儿AI

内容营销 ToB营销 大客户营销

不断发展的AI监管如何影响网络安全

我再BUG界嘎嘎乱杀

人工智能 AI 网络安全 安全 网安

天翼云TeleDB数据库获得中国信通院两项测试证书

极客天地

「漏洞原理」SQL 注入漏洞之理论讲解

我再BUG界嘎嘎乱杀

网络安全 安全 漏洞 SQL注入

EdgeOne安全专项实践:上传文件漏洞攻击详解与防范措施

我再BUG界嘎嘎乱杀

网络安全 安全 漏洞 文件上传 EdgeOne

又一成就,Pencils Protocol单链 TVL 突破 3 亿美元

西柚子

聚焦于 Melos 数据生命网络,用户如何参与到生态的建设中?

BlockChain先知

活动预告|8月3日 Streaming Lakehouse Meetup · Online 与你相约!

Apache Flink

StarRocks 实时湖仓 paimon

从消息流平台Serverless之路,看Serverless标准演进

华为云PaaS服务小智

Serverless 华为云

职场<火焰杯>测试开发大赛决赛成绩及获奖名单公布!

霍格沃兹测试开发学社

多重认可!嘉为科技入选《Gartner 2024中国基础设施战略成熟度曲线》

嘉为蓝鲸

AIOPS Gartner 可观测 OpenTelemetry

TapData 信创数据源 | 国产信创数据库达梦(Dameng)数据迁移指南,加速国产化进程,推进自主创新建设

tapdata

达梦数据库 达梦数据迁移 达梦增量同步

全新征程,Pencils Protocol 成首个单链 TVL 突破 3 亿美元的项目

加密眼界

面对AI,我们如何给自己的工作留条“后路”?

脑极体

AI

又一成就,Pencils Protocol单链 TVL 突破 3 亿美元

股市老人

中石化中海燃供总会计师刘汉坤:一场数智革命,对内打破部门墙,对外抢占先机

用友BIP

喜报!钛铂数据 TapDB 通过中国信通院文档数据库产品测试

tapdata

国产数据库 TapDB 国产分布式文档数据库 钛铂分布式文档数据库 中国信通院测试

Gartner《IT服务管理平台市场指南》报告解读

嘉为蓝鲸

ITSM Gartner gartner中国 IT服务管理

聚焦于 Melos 数据生命网络,用户如何参与到生态的建设中?

石头财经

AI 时代下的云原生技术,大厂有哪些前沿实践经验?_云原生_凌敏_InfoQ精选文章