如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

百度 AI 网络的架构创新与优化之路 | QCon 北京

  • 2025-03-20
    北京
  • 本文字数:849 字

    阅读完需:约 3 分钟

百度 AI 网络的架构创新与优化之路 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


百度网络架构师李虎已确认出席并发表题为《百度 AI 网络的架构创新与优化之路》的主题分享,深入介绍百度 AI 网络架构的设计与实现,重点探讨在 AI 训练和推理过程中团队遇到的痛点问题及其创新解决方案,以及跨 AZ(可用区)RDMA 场景下的技术挑战与优化策略。另外将结合 DeepSeek 等前沿 AI 技术的发展,探讨其对 AI 网络架构带来的新需求与挑战,以期为未来 AI 网络的高效部署与扩展提供思路。


李虎拥有 10 多年网络研发架构设计经验,目前在百度负责网络架构工作,主导 AI 网络架构设计与升级,致力于为百度 AI 训练推理提供更高效更稳定的基础设施。他在本次会议的详细演讲内容如下:


演讲提纲

1. 百度 AI 网络的发展历程

  • 网络架构介绍,以及为何选择这类网络架构

  • 百度自研交换机赋能百舸 AI 网络

2. AI 网络中痛点问题及解决方案

  • 如何高效解决网络拥塞问题

  • 如何高效定位网络故障

  • AI 网络故障的全新解决思路

3. 跨 AZ RDMA 探讨

  • 实验室测试数据分享和后续规划

4. 基于 DeepSeek 批量部署后,AI 网络遇到的新挑战

  • MOE alltoall、PD 分离等场景下对网络带来的新挑战以及优化手段


您认为,这样的技术在实践过程中有哪些痛点?

  • 没有一套网络架构或者参数是适用于所有模型的,我们需要在实践中输出最合适本公司的解决方案


演讲亮点

  • 业内先进的拥塞控制解决方案

  • 为了提升 AI 网络稳定性,百度的实践经验


听众收益

  • 基于网络侧的优化,提升超大规模 AI 网络的训练、推理性能


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-20 09:403318

评论

发布
暂无评论
发现更多内容

听了微信创始人张小龙的演讲,更加坚定Filecoin的光辉未来

时空云

分布式存储 IPFS Filecoin

中金数据集团与腾讯云合力拓展信息安全、区块链业务领域

CECBC

区块链产业

2020出行之变(一):自动驾驶的“跃渊”时刻

脑极体

IT版“历史上的今天”

IT蜗壳-Tango

七日更

关于Dapper实现读写分离的个人思考

yi念之间

区块链交易所软件开发|区块链交易所APP系统开发

系统开发

云原生的理解

JiangX

容器 云原生 数字化转型 数字化 28天写作

朋友问他是否该跳槽了?我是这么跟他说的

田维常

面试

soul数据同步(二)zookeeper同步策略

xzy

源码分析 网关 Soul网关 soul sou

数字人民币带来更好支付体验 没有网络时也能使用

CECBC

数字人民币

Nginx实现在局域网内真正的ip_hash负载均衡​

会飞的猪

认识产品经理(第一章上)

让我思考一会儿

讨论:Service层的接口是不是多此一举?

xcbeyond

Java 接口管理 28天写作

35+的测试人都去哪儿了?所谓“青春饭”真的只是在贩卖焦虑吗?

程序员阿沐

编程 程序员 软件测试 教程 测试工程师

重学JS | 玩转File API

梁龙先森

面试 大前端 编程语言 28天写作

简单易懂的单臂路由介绍及一看就会的实验

做一枚旗帜Be a Flag

石君

28天写作

Soul网关源码阅读(十)自定义简单插件编写

Java 源码阅读 网关

干货|更通用的P2P网络协议栈——Libp2p

QTech

IPFS Libp2p

认识产品经理(下)

让我思考一会儿

如果不完美,接受就好了「14/28」

道伟

28天写作

虚言妙诀终虚见,面试躬行是致知,Python技术面试策略与技巧实战记录

刘悦的技术博客

Python 面试

Windows DHCP最佳实践(四)

BigYoung

运维 windows Windows Server 2012 R2 DHCP

hive窗口函数/分析函数详细剖析

五分钟学大数据

Hive SQL

团队复盘之kiss

张老蔫

28天写作

大数据知识专栏 - MapReduce 的 Reduce端Join

小马哥

大数据 hadoop mapreduce 七日更

联发科推出天玑1200,新一年的头道“5G甜点”究竟滋味如何?

脑极体

nodejs中使用worker_threads来创建新的线程

程序那些事

多线程 nodejs 并发控制 程序那些事 子线程

Dubbo源码解析(1)-整体框架介绍

冰三郎

源码分析 dubbo RPC

为什么Java程序会执行一段时间后跑的更快?

Java架构师迁哥

剖析一站式分布式事务方案SeataFescar-Server

比伯

Java 编程 架构 面试 计算机

百度 AI 网络的架构创新与优化之路 | QCon北京_百度_QCon全球软件开发大会_InfoQ精选文章