
周末的北京,寒风凛冽,但在摩尔线程首届 MUSA 开发者大会(简称:MDC 2025)上,却热得让人忘记寒意。
2000 多名来自产学研的专业人士和开发者齐聚在这里,迎接上市刚满 15 天的摩尔线程一个又一个大招:全功能 GPU 架构“花港”、夸娥万卡智算集群、推理性能实现跨越、超节点架构前瞻、全新个人智算平台以及图形进化与前沿探索。
摩尔线程一口气展示了以自主 MUSA 统一架构为核心的全栈技术成果,与其说是“秀肌肉”,不如说是回应了市场最关心的问题:摩尔线程如何撑起一个 3000 亿的故事?
与大模型、AI 应用的叙事逻辑不同,GPU 是一个更强调长期主义的赛道。在国际市场中,英伟达凭借 CUDA 生态保持绝对的领先,AMD 依托 CPU+GPU 产品布局紧随其后。但在国产算力加速崛起、AI 大模型需求持续爆发的今天,国产 GPU 厂商们也站到了舞台中央。从 12 月 5 日正式登陆科创板,开盘拿下 3000 亿市值,到 20 日召开 MDC 2025,摩尔线程用一份高分答卷,回应了市场的期待。
但正如摩尔线程创始人、董事长兼 CEO 张建中在主题演讲中所说,生态体系才是 GPU 行业的核心护城河与价值所在。这一判断,在整场 MDC 2025 中被不断重复和强化,生态作为一个高频出现的关键词,几乎构成了本次 MDC 2025 的隐性主线。
开发者是绝对的“C 位”
开发者作为生态建设的关键,自然在这场以开发者为名的大会中稳居“C 位”——MUSA 架构以开发者为中心进行了全面升级,从编程生态、计算效能、开源生态再到前沿特性,本质上都是在降低开发与迁移成本。此外,无论是训推一体 GPU 产品路线的明确,还是围绕异步编程、软硬件协同等能力的持续推进,指向的都是为开发者构建友好、易用的开发环境。
摩尔线程看似出了一步“险招”,以宏大的开发者生态建设蓝图,剑指英伟达 CUDA 的生态护城河。实则,这几乎是国产 GPU 厂商绕不开的必选项——毕竟,围绕芯片的竞争从来不只是技术层面的比拼,真正的胜负手,是背后的生态体系。
从生态体系来看,GPU 的软件栈通常由上层算法库、中间层接口与驱动、低层编译器与硬件架构共同构成。真正的难点,往往不在于单一能力的突破,而是硬件架构设计及通用计算软件体系的长期建设。这意味着,GPU 厂商不仅需要在硬件架构上保持迭代,还要在软件栈和核心 IP 上持续投入,才能逐步沉淀出一个稳定、具备黏性的开发者社区。
英伟达 CUDA 生态的建设也曾经历过这样一个漫长的历程。自 2006 年推出以来,其生态体系在长期积累中不断扩张,吸引了全球范围内的大量开发者参与,也由此构筑起兼容性与完备度兼具的技术护城河。
摩尔线程技术团队在此前接受 InfoQ 采访时,也强调了构建自主可控的软件生态的重要性:“如果希望在全球市场上挑战英伟达的 CUDA 生态,国产 GPU 厂商需要从多个方面寻找突破口。一是构建自主可控的软件生态是关键,其次,兼容与创新并行的策略也至关重要。此外,抓住新技术的机遇也是一个重要方向,比如 DeepSeek 的爆火,它的核心突破在于算法优化和计算效率的提升,这种低算力需求模型对国产芯片的发展是一个重要机遇。再有,通过开源和合作,吸引开发者参与,加速技术迭代,以及硬件层面的优化也非常重要。”
目前,摩尔线程正围绕硬件、算力、软件、终端工具与学习平台,构建一个以开发者为中心、覆盖全场景的 MUSA 生态体系。
在人才培养方面,摩尔线程以摩尔学院为平台,专为 GPU 开发者、科研人员以及产业实践者设计,提供从入门到精通的全方位培训,课程内容广泛覆盖人工智能、数字孪生、加速计算等多个前沿技术领域。目前,该平台汇聚了近 20 万名开发者和学习者,并通过“国产计算生态与 AI 教育共建行动”将前沿技术与产业实践带入全国 200 多所高校,吸引了超过 10 万名青年学子参与。
此外,摩尔线程正在加速建设 MUSA 生态中心,首个 MUSA 生态中心将落地北京海淀区。作为整个 MUSA 生态的核心运营基地与公共服务平台,MUSA 生态中心将为所有开发者提供核心技术支撑、展示成果和交流创新、人才培养与创新孵化等多重职能。摩尔线程同时发布了 MUSA 开发者计划,面向从 AI 学习探索到科研创新的各类开发者提供算力和技术支持,确保每个参与者都能在生态中找到成长通道。
整体来看,MDC 2025 传递出的信号十分明确:摩尔线程不仅在技术上推进全功能 GPU 的能力边界,更在生态建设上形成了系统化布局。这也解释了,为什么上市后的摩尔线程,选择将第一场会定义为 MUSA 开发者大会。
“生态体系是 GPU 行业的核心护城河与价值所在,依托 MUSA 架构的优势,我们持续加大研发投入,致力于攻克从硬件到软件的核心技术挑战,以开放创新不断深化与生态伙伴的协同,共同构建自立自强的国产计算产业生态。此次大会是行业首个聚焦全功能 GPU 的开发者盛会,大家的热情令我们备受鼓舞,期待与更多开发者聚力共创,推动 MUSA 生态繁荣发展。”摩尔线程创始人、董事长兼 CEO 张建中在主题演讲中说道。
历时近 3 年重投入,摩尔线程自研 MUSA 又祭出大招
正如前文所言,生态构成了本次 MDC 2025 的隐性主线,除了系统性展示 MUSA 生态体系,MUSA 还以开发者为中心进行了全面升级。
MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一计算架构,也是国内首个在单芯片上同时支持 AI 智算、图形加速、科学计算、物理仿真以及超高清视频编解码的全功能 GPU 架构,并覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。
真正值得关注的,是全功能 GPU,这也是摩尔线程能撑起一个 3000 亿故事的关键。做芯片有很多条路,摩尔线程从 2020 年成立之初,就选择了最难的那一条——以全功能 GPU 为核心,从最底层构建一套全栈自主技术体系。
所谓全功能 GPU,是指既能处理图形图像、AI 张量计算、物理仿真和超高清视频编解码等多种任务,又支持 FP64、FP32、TF32、FP16/BF16、FP8、INT8、FP6、FP4 等多种计算精度的 GPU。与普通 GPU 相比,全功能 GPU 在工作效率、生态完整性与多样性以及兼容性方面更具优势,也能更好地满足未来新兴与前沿计算加速应用的需求。
MUSA 为全功能 GPU 奠定了坚实的技术根基,也是摩尔线程所有产品和技术迭代的统一基础,并且持续在进化。从 2022 年发布至今,MUSA 已经升级到第五代。
2022 年 3 月,摩尔线程基于第一代 MUSA 架构推出 GPU“苏堤”,其内置了现代图形渲染、智能多媒体、AI 计算加速、科学计算与物理仿真四大引擎。同年 11 月,摩尔线程推出第二代基于 MUSA 架构的 GPU“春晓”,四大引擎均实现了全面升级:现代图形渲染引擎性能最高提升 3-5 倍;AI 计算加速引擎性能最高提升 4 倍;智能多媒体引擎性能最高提升 4 倍;物理仿真引擎性能最高提升 2.5 倍。
2023 年 9 月,摩尔线程推出第三代 GPU 芯片“曲院”,并加强了 AI 训练和推理能力,相比前代产品性能提升 3 至 5 倍。2024 年,摩尔线程推出第四代 GPU 芯片“平湖”,增加了 FP8 精度支持,大幅提升 AI 算力,并可支撑面向 DeepSeek 类前沿大模型预训练的万卡集群智算中心解决方案。
本次 MDC 2025 全新升级的 MUSA 5.0,以全功能 GPU 的四大引擎为底座,MUSA 软件栈提供了一整套支持 AI 计算加速、图形计算、物理仿真与科学计算、智能多媒体以及端侧智能的开发工具。
在 AI 框架方面,MUSA 兼容 PyTorch、Paddle,同时新增对 Jax 和 TensorFlow 的支持。训练套件在已有分布式训练框架 Megatron 和 DeepSpeed 的基础上,新增了强化学习训练框架 MT VeRL;推理套件在深度优化大模型的 MTT 推理引擎和深度学习模型 TensorX 的基础上,新增了对 SGLang、vLLM 和 Ollama 等新兴推理框架的适配。对于开发者来说,这意味着能够在更丰富的工具链下优化算法和应用,同时加快模型实验和迭代效率。
MUSA SDK 作为加速 AI 和科学计算的基础软件,在原有功能基础上进一步深度优化了计算和通信能力,同时提供了 MATE 算子库和 MT DeepEP,并新增了对 TileLang 语言生态的兼容。此外,MUSA SDK 还提供了 muLang,用于 AI 与渲染的快捷编程。为了让开发者能够更深入地调优 GPU 性能,MUSA 还发布了 GPU 中间表示语言 MTX 1.0。
在图形计算方面,MUSA 集成了硬件级光线追踪引擎与自研 AI 生成式渲染,融合“图形+AI”能力提供给开发者,并在底层驱动上深入支持渲染框架。按照计划,后续还将实现对 DirectX 12 Ultimate 的完整支持。
此外,MUSA 的编程生态得到全面优化,原生支持 MUSA C,并兼容 TileLang、Triton 等语言,为开发者提供灵活的全栈开发体验。核心计算库 muDNN 在 GEMM 和 FlashAttention 上效率超过 98%,通信效率达到 97%,编译器性能提升 3 倍,并集成算子库加速训练与推理。开源生态方面,计算加速库、通信库和系统管理框架等核心组件将逐步向开发者社区开放。前沿特性方面,即将推出兼容跨代 GPU 指令架构的中间语言 MTX、面向渲染+AI 融合计算的编程语言 muLang、量子计算融合框架 MUSA-Q,以及计算光刻库 muLitho,进一步拓展全功能 GPU 的算力边界。
整体来看,MUSA 在编程生态、计算效能、开源生态以及前沿特性上的全面升级,逻辑是以开发者为中心进行设计的,开发者作为生态建设的关键力量,其使用和反馈将直接影响工具链优化、算子库迭代和新特性的落地。
全功能 GPU 架构“花港”上新,两款芯片即将亮相
基于 MUSA 统一体系,摩尔线程还揭晓了新一代全功能 GPU 架构“花港”,与“前代”们相比,“花港”可以说是升级幅度最大的一代 GPU 架构。这也是本次 MDC 2025 带来的最大惊喜。
与苏堤、春晓、曲院、平湖相比,“花港”在计算密度、能效、精度支持、互联能力及图形技术等方面实现了全面突破。
在计算性能方面,“花港”基于新一代指令集,算力密度提升 50%,并大幅优化能效,支持从 FP4 到 FP64 的全精度端到端计算,同时新增 MTFP6/MTFP4 及混合低精度支持。这意味着,无论是高精度科学计算,还是低精度 AI 推理和训练,都能在同一芯片上高效完成。
在编程能力与互联方面,“花港”集成了新一代异步编程模型,对任务调度和并行机制进行了优化,并通过自研 MTLink 高速互联技术,支持十万卡以上的智算集群扩展。在图形与 AI 的深度融合方面,“花港”内置 AI 生成式渲染引擎,同时增强了硬件光线追踪能力,并完整支持 DirectX 12 Ultimate,实现图形渲染与智能计算的高度协同。
在安全与自主可控方面,“花港”完全基于全栈自主研发。数据显示,截至 2025 年 6 月 30 日,摩尔线程累计授权专利 514 项,其中发明专利 468 项,能通过四层硬件安全架构,提供从芯片到系统的可验证安全保障。
基于“花港”架构,摩尔线程公布了未来将发布的两款芯片技术路线。
其一是专注 AI 训推一体与超大规模智能计算的 GPU 产品“华山”。
“华山”集成了异步编程模型、高效线程同步、线程束特化以及常驻核函数,为大规模并行计算和复杂任务调度提供硬件与软件协同支持。在计算精度方面,“华山”引入新一代高性能 MTFP4 技术,支持从 FP4 到 FP64 的全精度计算。针对未来 AI 低精度训练和推理的主流需求,“华山”在下一代 MT Transformer Engine 中进一步利用 MTFP8 和 MTFP4 优化 Attention 模块,实现从 BF16 向 FP8 甚至 FP6 的演进。
为适配更高密度的 Tensor Core,在“花港”架构硬件创新中,Attention 模块的 SIMT 部分进行了革新升级:原生支持矩阵 rowmax 计算,大幅提升混合精度 SIMT 吞吐量,同时增强在线量化与反量化能力,并在低精度训练中提供随机舍入等硬件支持。
其二是专攻高性能图形渲染的 GPU 产品“庐山”。
“庐山”实现了高性能图形计算的全面跨越:AI 计算性能提升 64 倍,几何处理性能提升 16 倍,光线追踪性能提升 50 倍,并显著增强纹理填充、原子访存能力及显存容量。集成 AI 生成式渲染、UniTE 统一渲染架构及全新硬件光追引擎,为 3A 游戏、高端图形创作提供强大算力支持。
“华山”和“庐山”的双芯片路线,传递出了一个十分清晰的信号:摩尔线程正瞄准 AI 与图形两个关键领域,以组合拳的形式保持底层架构的统一,为跨场景协同计算奠定基础。实际上,图形本身也是摩尔线程四大产品矩阵(AI 智算、专业图形、 桌面级 GPU 与智能 SoC)之一,根据公司招股说明书,2025 H1 摩尔线程 AI 智算和专业图形加速两项业务营收合计占比达 99%,构成了公司的主要收入来源。
不过,搭载“华山”和“庐山”芯片的全新硬件产品明年才会亮相。在 GPU 竞争愈发依赖软件与生态协同的背景下,硬件的成败或许需要时间来验证,开发者生态建设才是更具现实意义的观察窗口。毕竟,开发者是否愿意留下来、用下去,才是决定这条路线能走多远的长期关键变量。







评论