写点什么

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1180 字

    阅读完需:约 4 分钟

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


基流科技创始人、CEO 胡效赫已确认出席并发表题为《下一代自主智算系统:超大规模集群的工程实践与挑战》的主题分享,重点探讨基于可扩展、高可用、国产化原则的下一代自主计算系统方案选型,如何通过自研通信库、拥塞控制和负载均衡优化策略、高效能算力调度、自动化集群运维、国产 AI 通信系统、算存协同广域调度等技术构建超大规模自主智算集群,解决算力基础设施卡脖子问题,为前沿大模型发展提供算力支撑。


胡效赫本科至博士均就读于清华大学,在清华就读博士期间,他已成功实现了全国首个 TB 级网络产品的落地,并在超级计算领域部署了千卡规模的模型通信方案。在高校及公司期间,完成数十万亿参数推荐大模型通信优化,首个软件定义自动化的国家级课题、14 篇网络系统方向 CCF-A 顶级论文,博士和博后期间负责及参与项目的累计经费近 2000 万元,导师和合作导师所参与公司的累积市值 500 亿美金。他在本次会议的详细演讲内容如下:


演讲提纲

1. 基础设施发展趋势

  • Scale out、Scale up 层面实现超大规模集群建设

  • 大模型基础设施全景图

  • 大规模智算集群核心痛点及工程要求

2. 超大规模自主计算集群方案

  • Galaxy 自主智算集群构建要点

  • 可扩展设计:架构设计、通信库、网络优化、并行框架等关键技术

  • 高可用设计:自研高效能算力调度、自动化算力运维平台

  • 国产化设计:基于国产 AI 通信系统实现开放通用设计、垄断方案解耦

3. 十万卡智算集群解决方案

  • 算存协同广域组网调度

  • 长距离大模型训练实践


您认为,这样的技术在实践过程中有哪些痛点?

  • 在 GPU 解耦层面,基于国产芯片的迁移适配、多元异构混合训练需要联合 GPU 厂商支持,且国产 GPU 在 Scale up 层面进展较慢,构建基于国产 GPU 的下一代自主智算系统难度较大

  • 在国产 AI 通信层面,目前基于国产交换芯片的交换机最大交换容量是 25.6T(64 个 400 G 端口),三层组网最大支持 65536 张卡,需要创新设计十万卡集群架构


演讲亮点

  • 国产全栈端到端 AI 通信系统方案:在交换机、集合通信库、拥塞控制调优、网络运维平台、长距和异构通信等方面,通过软硬件协同设计,形成全国产智算网络全栈产品和解决方案

  • 丰富的大规模集群项目实施经验:方案中的关键技术累积应用在超过多个大规模智算集群,集群规模累积超过 4 万张国际先进 GPU 卡


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 14:543900

评论

发布
暂无评论

弹性公网IP支持多产品灵活绑定或解绑,能为企业提供独立公网IP资源!

秃头也爱科技

【JVM故障问题排查心得】「内存诊断系列」Xmx和Xms的大小是小于Docker容器以及Pod的大小的,为啥还是会出现OOMKilled?

码界西柚

jdk JVM 12 月 PK 榜 OOMKilled

回顾与展望Zebec举办的“Web3.0 TechHive Summit 2022 大会”

鳄鱼视界

反编译APK获取代码&资源

芯动大师

Android Studio APK 反编译

好评爆棚的华为弹性云服务器,究竟有哪些亮点?

秃头也爱科技

WIKO+鸿蒙生态:海外品牌中国化的新范式

脑极体

【web 开发基础】PHP面向对象之访问类中的成员属性和方法(58)

迷彩

面向对象 this指针 PHP基础 PHP8 实例化

云端高性能计算,华为云ECS助力企业数字化转型

秃头也爱科技

模块4

KING

华为云VPN,经典跟专业版企业应该怎么选?

清欢科技

【web 开发基础】PHP8中对数组操作的新变化(56)

迷彩

List 数组 字符串 PHP基础 PHP8

Kafka的灵魂伴侣Logi-KafkaManger(2)之kafka针对Topic粒度的配额管理(限流)

石臻臻的杂货铺

kafka 后端

如何为企业打造优质应用环境!华为云弹性服务器了解一下

路过的憨憨

华为云企业交换机ESW,让数据业务无缝迁移上云

路过的憨憨

华为云弹性服务器ECS,如何入局新能源产业?

秃头也爱科技

助力企业构建更可靠的云上云下网络,华为云企业交换机巧解企业上云难题!

路过的憨憨

【web 开发基础】PHP类的构造方法和析构方法(59 )

迷彩

面向对象 PHP基础 构造方法 析构方法

2022-12-31:以下go语言代码输出什么?A:1 1;B:-1 1;C:-1 -1;D:编译错误。 package main import “fmt“ func main() { a

福大大架构师每日一题

golang 福大大 选择题

以华为云ECS为例,解读中小企业为何纷纷转投弹性云服务器

秃头也爱科技

2022年度总结-个人成长视角

非典型产品经理笔记

个人成长 网络安全 年终总结

华为虚拟专用网络VPN,为何备受游戏厂商喜爱?

清欢科技

【web 开发基础】PHP中的访问方法(60)

迷彩

PHP基础 property 访问方法 类的封装 封装性

音与影的魔法红线:双Vivid标准带来的超高清之变

脑极体

AI-001-火爆全网的聊天机器人ChatGPT能做什么

非典型产品经理笔记

nlp 人工智能’ ChatGPT

【web 开发基础】PHP面向对象中类的继承(61)

迷彩

面向对象 extends PHP基础 类的继承 类的实例化

【web 开发基础】PHP8 中类的基本操作(57)

迷彩

面向对象 PHP基础 PHP8 实例化

大势所趋_ 华为云企业交换机ESW助力智慧医院转型

路过的憨憨

华为云ECS弹性云服务器,赋能企业加速数字化发展

秃头也爱科技

让上云变成一件简单的事情!华为云企业交换机支持无缝迁移上云

路过的憨憨

老周的 2022 年终总结

老周聊架构

年终总结 12月月更

AI-002-十分钟理解ChatGPT的技术逻辑及演进(前世、今生)

非典型产品经理笔记

NLP 大模型 人工智能’ ChatGPT

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章