百度 AI 网络的架构创新与优化之路 | QCon 北京

  • 2025-03-20
    北京
  • 本文字数:849 字

    阅读完需:约 3 分钟

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。

百度网络架构师李虎已确认出席并发表题为《百度 AI 网络的架构创新与优化之路》的主题分享,深入介绍百度 AI 网络架构的设计与实现,重点探讨在 AI 训练和推理过程中团队遇到的痛点问题及其创新解决方案,以及跨 AZ(可用区)RDMA 场景下的技术挑战与优化策略。另外将结合 DeepSeek 等前沿 AI 技术的发展,探讨其对 AI 网络架构带来的新需求与挑战,以期为未来 AI 网络的高效部署与扩展提供思路。

李虎拥有 10 多年网络研发架构设计经验,目前在百度负责网络架构工作,主导 AI 网络架构设计与升级,致力于为百度 AI 训练推理提供更高效更稳定的基础设施。他在本次会议的详细演讲内容如下:

演讲提纲

1. 百度 AI 网络的发展历程

  • 网络架构介绍,以及为何选择这类网络架构

  • 百度自研交换机赋能百舸 AI 网络

2. AI 网络中痛点问题及解决方案

  • 如何高效解决网络拥塞问题

  • 如何高效定位网络故障

  • AI 网络故障的全新解决思路

3. 跨 AZ RDMA 探讨

  • 实验室测试数据分享和后续规划

4. 基于 DeepSeek 批量部署后,AI 网络遇到的新挑战

  • MOE alltoall、PD 分离等场景下对网络带来的新挑战以及优化手段

您认为,这样的技术在实践过程中有哪些痛点?

  • 没有一套网络架构或者参数是适用于所有模型的,我们需要在实践中输出最合适本公司的解决方案

演讲亮点

  • 业内先进的拥塞控制解决方案

  • 为了提升 AI 网络稳定性,百度的实践经验

听众收益

  • 基于网络侧的优化,提升超大规模 AI 网络的训练、推理性能

除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。