写点什么

万卡万 P 万亿参数通用算力!摩尔线程夸娥智算中心再升级|WAIC 专题报道

  • 2024-07-05
    北京
  • 本文字数:2336 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
万卡万P万亿参数通用算力!摩尔线程夸娥智算中心再升级|WAIC专题报道

7 月 3 日,摩尔线程重磅宣布其 AI 旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。摩尔线程夸娥(KUAE)万卡智算集群,以全功能 GPU 为底座,旨在打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。

 

 

摩尔线程创始人兼 CEO 张建中表示:“当前,我们正处在生成式人工智能的黄金时代,技术交织催动智能涌现,GPU 成为加速新技术浪潮来临的创新引擎。摩尔线程矢志投身于这一历史性的创造进程,致力于向全球提供加速计算的基础设施和一站式解决方案,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。夸娥万卡智算集群作为摩尔线程全栈 AI 战略的一块重要拼图,可为各行各业数智化转型提供澎湃算力,不仅有力彰显了摩尔线程在技术创新和工程实践上的实力,更将成为推动 AI 产业发展的新起点。” 

AI 主战场,万卡通用算力是标配

大模型自问世以来,关于其未来的走向和发展趋势亟待时间验证,但从当前来看,几种演进趋势值得关注,使得其对算力的核心需求也愈发明晰。

 

首先,Scaling Law 将持续奏效。Scaling Law 自 2020 年提出以来,已揭示了大模型发展背后的“暴力美学”,即通过算力、算法、数据的深度融合与经验积累,实现模型性能的飞跃,这也成为业界公认的将持续影响未来大模型的发展趋势。Scaling Law 将持续奏效,需要单点规模够大并且通用的算力才能快速跟上技术演进。

 

其次,Transformer 架构不能实现大一统,和其他架构会持续演进并共存,形成多元化的技术生态。生成式 AI 的进化并非仅依赖于规模的简单膨胀,技术架构的革新同样至关重要。Transformer 架构虽然是当前主流,但新兴架构如 Mamba、RWKV 和 RetNet 等不断刷新计算效率,加快创新速度。随着技术迭代与演进,Transformer 架构并不能实现大一统,从稠密到稀疏模型,再到多模态模型的融合,技术的进步都展现了对更高性能计算资源的渴望。

 

与此同时,AI、3D 和 HPC 跨技术与跨领域融合不断加速,推动着空间智能、物理 AI 和 AI 4Science、世界模型等领域的边界拓展,使得大模型的训练和应用环境更加复杂多元,市场对于能够支持 AI+3D、AI+物理仿真、AI+科学计算等多元计算融合发展的通用加速计算平台的需求日益迫切。

 

多元趋势下,AI 模型训练的主战场,万卡已是标配。随着计算量不断攀升,大模型训练亟需超级工厂,即一个“大且通用”的加速计算平台,以缩短训练时间,实现模型能力的快速迭代。当前,国际科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群,以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。

 

然而,构建万卡集群并非一万张 GPU 卡的简单堆叠,而是一项高度复杂的超级系统工程。它涉及到超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。这是难而正确的事情,摩尔线程希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。


夸娥:国产万卡万 P 万亿大模型训练平台


夸娥(KUAE)是摩尔线程智算中心全栈解决方案,是以全功能 GPU 为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

 

基于对 AI 算力需求的深刻洞察和前瞻性布局,摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展,旨在满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求。

 


夸娥万卡智算解决方案具备多个核心特性:

  • 超大算力,万卡万 P:在集群计算性能方面,全新一代夸娥智算集群实现单集群规模超万卡,浮点运算能力达到 10Exa-Flops,大幅提升单集群计算性能,能够为万亿参数级别大模型训练提供坚实算力基础。同时,在 GPU 显存和传输带宽方面,夸娥万卡集群达到 PB 级的超大显存总容量、每秒 PB 级的超高速卡间互联总带宽和每秒 PB 级超高速节点互联总带宽,实现算力、显存和带宽的系统性协同优化,全面提升集群计算性能。

  • 超高稳定,月级长稳训练:稳定性是衡量超万卡集群性能的关键。在集群稳定性方面,摩尔线程夸娥万卡集群平均无故障运行时间超过 15 天,最长可实现大模型稳定训练 30 天以上,周均训练有效率在 99%以上,远超行业平均水平。这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:软硬件故障的自动定位与诊断预测实现分钟级的故障定位,Checkpoint 多级存储机制实现内存秒级存储和训练任务分钟级恢复以及高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度。

  • 极致优化,超高 MFU:MFU 是评估大模型训练效率的通用指标,可以直接反应端到端的集群训练效率。夸娥万卡集群在系统软件、框架、算法等层面一系列优化,实现大模型的高效率训练,MFU 最高可达到 60%。其中,在系统软件层面,基于极致的计算和通讯效率优化等技术手段,大幅提升集群的执行效率和性能表现。在框架和算法层面,夸娥万卡集群支持多种自适应混合并行策略与高效显存优化等,可以根据应用负载选择并自动配置最优的并行策略,大幅提升训练效率和显存利用。同时,针对超长序列大模型,夸娥万卡集群通过 CP 并行、RingAttention 等优化技术,有效缩减计算时间和显存占用,大幅提升集群训练效率。

  • 全能通用,生态友好:夸娥万卡集群是一个通用加速计算平台,计算能力为通用场景设计,可加速 LLM、MoE、多模态、Mamba 等不同架构、不同模态的大模型。同时,基于高效易用的 MUSA 编程语言、完整兼容 CUDA 能力和自动化迁移工具 Musify,加速新模型“Day0”级迁移,实现生态适配“Instant On”,助力客户业务快速上线。 

2024-07-05 00:325726
用户头像
李冬梅 加V:busulishang4668

发布了 1137 篇内容, 共 756.5 次阅读, 收获喜欢 1276 次。

关注

评论

发布
暂无评论
发现更多内容

腾讯云,五轮面试,六个小时,灵魂拷问,含泪拿下 60W offer

进击的王小二

java面试 大厂面试 java

docker 安装kafka

大可大大大

金九银十,面试必备!耗时一周整理的牛客网上最火Java面试八股文

Java 程序员 架构 面试 大厂

阿里云正式开源PolarDB-X数据库,壮大云原生分布式数据库生态

Lily

2021Android面试笔试总结!html5移动开发即学即用网盘

android 程序员 移动开发

每秒创建百万文件,百度沧海·文件存储CFS推出新一代Namespace架构

百度大脑

人工智能

10天拿到腾讯Android岗offer,内容太过真实

android 程序员 移动开发

付费云存储,微信的登云梯还是蜀道难?

海比研究院

云存储

阿里云混合云Apsara Stack 2.0发布,加速政企数智创新

架构 操作系统 公有云 科技

DeFi去中心化DAPP系统软件开发案例(现成)

官方线索|把梦想当作热爱,用技术创造价值!

搬砖人

1024我在现场

QCon看点|亚马逊云科技可持续软件工程实践分享

亚马逊云科技 (Amazon Web Services)

软件工程 S3 云端

纵观移动云对象存储发展历程,也少不了 Apache APISIX 的能力加持

API7.ai 技术团队

API网关 企业案例 移动云 Apache APISIX

2021Android大厂面试题来袭,Android性能优化推荐书

android 程序员 移动开发

翻车了,字节一道 Fragment面试题

小松漫步

面试 大厂面试 Android;

Android架构之网络优化

轻口味

android 10月月更

DeFi平台挖矿系统需求开发(现成案例)

SimpleDateFormat线程不安全了?这里有5种解决方案

华为云开发者联盟

安全 线程 变量 SimpleDateFormat

架构设计第一周学习总结

周文

总结思考

同为aPaaS平台,华为云开天aPaaS与AppCube有何不同?

海比研究院

aPaaS

达摩院求解器升级 覆盖黑盒优化难题

Lily

第 21 章 -《Linux 一学就会》- 结构化命令case和for、while循环

学神来啦

收藏!490家专精特新数智企业全名单:听听“小巨人”企业怎么说?

海比研究院

阿里云多个智物新品集体出道,持续加速产业智能化

Lily

模块一作业

周文

「架构实战营」

会计CRM系统软件提高公司管理效率

低代码小观

企业 企业管理 管理会计综合实训平台 CRM 管理系统

阿里云隐私增强计算产品DataTrust助力产业间实现数据价值高效协同

Lily

数实融合·绽放新机,Techo Day技术回响日邀您“云相聚”

腾讯云数据库

数据库 tdsql

2021Android进阶学习资料,动脑学院vip课程百度云

android 程序员 移动开发

Week 1命题作业

小朱

架构实战营

老凡尔赛了!当亚马逊云科技大佬“转行”讲起脱口秀

亚马逊云科技 (Amazon Web Services)

数字化转型 设计师

万卡万P万亿参数通用算力!摩尔线程夸娥智算中心再升级|WAIC专题报道_芯片&算力_李冬梅_InfoQ精选文章