写点什么

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1180 字

    阅读完需:约 4 分钟

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


基流科技创始人、CEO 胡效赫已确认出席并发表题为《下一代自主智算系统:超大规模集群的工程实践与挑战》的主题分享,重点探讨基于可扩展、高可用、国产化原则的下一代自主计算系统方案选型,如何通过自研通信库、拥塞控制和负载均衡优化策略、高效能算力调度、自动化集群运维、国产 AI 通信系统、算存协同广域调度等技术构建超大规模自主智算集群,解决算力基础设施卡脖子问题,为前沿大模型发展提供算力支撑。


胡效赫本科至博士均就读于清华大学,在清华就读博士期间,他已成功实现了全国首个 TB 级网络产品的落地,并在超级计算领域部署了千卡规模的模型通信方案。在高校及公司期间,完成数十万亿参数推荐大模型通信优化,首个软件定义自动化的国家级课题、14 篇网络系统方向 CCF-A 顶级论文,博士和博后期间负责及参与项目的累计经费近 2000 万元,导师和合作导师所参与公司的累积市值 500 亿美金。他在本次会议的详细演讲内容如下:


演讲提纲

1. 基础设施发展趋势

  • Scale out、Scale up 层面实现超大规模集群建设

  • 大模型基础设施全景图

  • 大规模智算集群核心痛点及工程要求

2. 超大规模自主计算集群方案

  • Galaxy 自主智算集群构建要点

  • 可扩展设计:架构设计、通信库、网络优化、并行框架等关键技术

  • 高可用设计:自研高效能算力调度、自动化算力运维平台

  • 国产化设计:基于国产 AI 通信系统实现开放通用设计、垄断方案解耦

3. 十万卡智算集群解决方案

  • 算存协同广域组网调度

  • 长距离大模型训练实践


您认为,这样的技术在实践过程中有哪些痛点?

  • 在 GPU 解耦层面,基于国产芯片的迁移适配、多元异构混合训练需要联合 GPU 厂商支持,且国产 GPU 在 Scale up 层面进展较慢,构建基于国产 GPU 的下一代自主智算系统难度较大

  • 在国产 AI 通信层面,目前基于国产交换芯片的交换机最大交换容量是 25.6T(64 个 400 G 端口),三层组网最大支持 65536 张卡,需要创新设计十万卡集群架构


演讲亮点

  • 国产全栈端到端 AI 通信系统方案:在交换机、集合通信库、拥塞控制调优、网络运维平台、长距和异构通信等方面,通过软硬件协同设计,形成全国产智算网络全栈产品和解决方案

  • 丰富的大规模集群项目实施经验:方案中的关键技术累积应用在超过多个大规模智算集群,集群规模累积超过 4 万张国际先进 GPU 卡


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 14:544117

评论

发布
暂无评论

外包学生管理系统详细架构设计文档

Beyond Ryan

【LeetCode】合并两个有序数组Java题解

Albert

算法 LeetCode 11月日更

Go WebSocket开发与测试实践【/net/websocket】

FunTester

Java websocket 接口测试 Go 语言 FunTester

Spring+SpringMVC+Mybatis框架整合(SSM整合)

Java 程序员 后端

Spring @Lookup实现单例bean依赖注入原型bean

Java 程序员 后端

Spring Boot 实战(11)整合MyBatis-Plus

Java 程序员 后端

Spring Boot 操作 Redis 的各种实现

Java 程序员 后端

Spring MVC温故而知新 – 从零开始

Java 程序员 后端

Vue进阶(幺柒伍):色彩搭配

No Silver Bullet

Vue 11月日更

Spring Boot+Mybatis+thymeleaf整合

Java 程序员 后端

Spring MVC框架:第六章:传统增删改查

Java 程序员 后端

Spring Cloud Gateway限流实战

Java 程序员 后端

Spring MVC框架:第七章:REST架构风格(1)

Java 程序员 后端

Spring MVC框架:第七章:REST架构风格

Java 程序员 后端

Spring(一):容器的实现——两大核心类

Java 程序员 后端

Spring boot —— 创建parent工程

Java 程序员 后端

Spring Boot 集成 Elasticsearch 实战

Java 程序员 后端

Spring Boot在微服务中的最佳实践

Java 程序员 后端

Serverless 如何在阿里巴巴实现规模化落地?

Java 程序员 后端

spring boot 自定义配置文件&参数绑定

Java 程序员 后端

Spring Boot 快速入门(一)

Java 程序员 后端

Spring Cloud 2020 版本最佳实践,你落伍了

Java 程序员 后端

Spring Boot 中三种跨域场景总结,这篇必看!不看后悔系列

Java 程序员 后端

Spring Cloud Gateway修改请求和响应body的内容

Java 程序员 后端

Spring Cloud:第二章:eureka服务发现

Java 程序员 后端

fastposter 2.2.0 新版本发布 电商级海报生成器

物有本末

Java Vue 海报 fastposter 海报生成器

Servlet 入门

Java 程序员 后端

Spring Boot 接入 GitHub 第三方登录,只要两行配置!

Java 程序员 后端

Spring Boot 核心的 25 个注解

Java 程序员 后端

Spring Boot + EasyExcel 导入导出,好用到爆!

Java 程序员 后端

Spring 三级缓存和循环依赖 思考和总结

Java 程序员 后端

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章