2025 年 12 月 20 日,摩尔线程首届 MUSA 开发者大会(MDC 2025)于北京中关村国际创新中心正式开幕。本次大会上,摩尔线程集中发布了一系列技术与产品进展:
新架构“花港”亮相:发布全功能 GPU 架构“花港”,支持 FP4 到 FP64 的全精度计算,密度密度提升 50%,效能提升 10 倍。未来将基于该架构推出高性能 AI 训推一体“华山”芯片与专攻高性能图形渲染的“庐山”芯片。
“夸娥”万卡高效训练:发布夸娥万卡智算集群,展示了其支撑万亿参数模型训练的工程化能力与可靠性,在多项关键精度指标上达到国际主流水平。
推理性能实现飞越:摩尔线程联合硅基流动,在 DeepSeek R1 671B 全量模型上实现性能突破,MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s、Decode 吞吐突破 1000 tokens/s,树立国产推理性能新标杆。
超节点架构前瞻:分享面向下一代超大规模智算中心的 MTT C256 超节点架构规划,着眼高密硬件架构,将实现极致智算性能。
全新个人智算平台:正式发布搭载智能 SoC 芯片“长江”的 AI 算力本 MTT AIBOOK,赋能“摩尔学院”20 万开发者与学习者。
图形进化与前沿探索:实现硬件级光线追踪加速与自研 AI 生成式渲染技术,具身智能、科学智能(AI4S)、AI for 6G 等前沿领域的深度布局,进一步印证了全功能 GPU 技术路线的广度与面向未来的可扩展性。
摩尔线程创始人、董事长兼 CEO 张建中在主题演讲中强调了 MUSA 架构作为全功能 GPU 基石的先进性与技术引领性,并表示:“生态体系是 GPU 行业的核心护城河与价值所在,依托 MUSA 架构的优势,我们持续加大研发投入,致力于攻克从硬件到软件的核心技术挑战,以开放创新不断深化与生态伙伴的协同,共同构建自立自强的国产计算产业生态。
中国工程院院士、清华大学计算机系教授郑纬民在大会上发表了题为《中国主权的 AI 计算引擎构建研究——以国产 GPU 为代表的自主可控路径观察》的主题演讲,为国产 GPU 及主权 AI 的发展提供了系统性思路。
郑纬民指出,我们所处的时代正在经历深刻变革。过去,芯片产业高度依赖全球化分工:架构设计、设备制造、代工与封装由不同国家和地区分工完成。然而,近年来全球环境发生了变化,“主权 AI”已从学术讨论逐步成为国家必须正面回答的现实问题。针对这一背景,郑纬民提出了构建主权 AI 的五大关键点,并结合摩尔线程的实践进行了深入解析。

主权 AI 的三大支柱:算力自主、算法自强与生态自立
郑纬民强调,主权 AI 需要构建系统性工程框架,其中最核心的三大支柱为:算力自主、算法自强以及生态自立。算力自主是物理层面的安全底座,包括三项核心能力:芯片设计自主可控、制造与供应链风险可控、系统与集群交付能力强。摩尔线程的国产全功能 GPU 正是这一理念的代表,通过整合 AI、3D 渲染与 HPC 功能,构建可独立运行、稳定可靠的算力体系。
在算法自强方面,郑纬民指出,GPU 不仅要支持大模型训练,还要能实现大模型的优化与适配。这意味着硬件与算法必须深度协同,以充分发挥芯片潜力。摩尔线程针对大模型训练提供了完整的软件与硬件配套方案,使得国产 GPU 在训练效率和性能上与国际同类产品接近甚至部分超越。
生态自立则更具战略意义。郑纬民强调,硬件能力虽重要,但生态是否成熟决定了平台能否被广泛采纳。真正的生态建设不仅是厂家提供硬件,更要让开发者“愿意用”。
摩尔线程通过类 CUDA 的生态实践、开源项目以及开发者工具链建设,使国产 GPU 平台从“能跑”走向“好用”,最终让开发者主动选择国产生态。这一点在 Mooncake 大模型推理架构及 KTransformers 等开源项目中得到体现,实现了软硬件生态的有机融合。
AI+3D+HPC 一体化架构:全功能 GPU 的实践
郑纬民在演讲中提出,物理 AI 与世界模型的计算需求呈现三位一体特征:支持 AI 运算、3D 渲染能力和 HPC 高精度计算能力。摩尔线程通过全功能 GPU,将这三方面能力集成于单芯片,实现从 AI 驱动的新一代渲染平台,到数字孪生、工业仿真、视频生成与实时交互等多场景的覆盖。
发布会上,摩尔线程展示了其新一代 GPU 在 AI 模型训练、3D 场景渲染以及 HPC 高精度计算上的性能指标,并演示了在视频生成、工业仿真及多模态 AI 应用中的实际效果。郑纬民指出,这种一体化设计不仅提升了性能,更为国产芯片的主权可控奠定了基础。
从单卡到万卡、十万卡集群:算力自主的基石
大模型训练需要极大算力支撑。郑纬民强调,国产 GPU 的万卡乃至十万卡集群建设极具挑战,不仅需要解决互联网络与拓扑设计问题,还需保证可靠性与运维能力,以及供电与散热系统的高效运作。他指出:“十万卡系统不是简单叠加电源和机架,而是一个高度复杂的系统工程。”
摩尔线程在大会上展示了其大规模 GPU 集群方案,涵盖互联网络设计、容错机制、自动运维系统以及散热供电优化等全链条技术。郑纬民表示,这些工程实践标志着国产算力平台从“能用”向“好用”迈出了关键一步,为大模型训练和主权 AI 的落地提供了可靠保障。
开发者与类 CUDA 生态建设:从“能用”到“愿意用”
在郑纬民看来,真正决定国产主权 AI 成败的关键,是开发者生态。国产平台需要解决迁移成本高、工具链不成熟、社区支持不足等问题。
他强调,“从能用到好用,再到愿意用”,是生态建设的三个阶段。摩尔线程 MUSA 平台便是类 CUDA 的国产实践,通过完善的工具链、开源项目支持以及社区建设,使开发者能够低成本、高效率地在国产 GPU 上完成大模型训练和推理。
开源在生态建设中扮演重要角色。郑纬民以清华大学团队的 Mooncake 和 KTransformers 项目为例,展示了开源如何助力国产 GPU 在大模型推理与混合 CPU/GPU 使用场景下实现优化,同时降低了开发成本。这也符合后 CUDA 时代的趋势,即模型使用者更多依赖开源项目而非单一商业闭源方案。
产业协同:从碎片化走向合力
郑纬民指出,当前国产 GPU 产业仍面临碎片化问题。不同厂商提供不同接口、不同系统环境增加了开发者负担。为实现主权 AI 的全面落地,产业协同、软硬件协同设计以及应用生态统一标准至关重要。他呼吁产业界与开发者团结一心,共同解决生态薄弱、应用不足等问题。
摩尔线程在发布会上也提出了多项产业协同举措,包括与高校和科研院所合作推进 GPU 算力开放实验室、与软件开发商协同优化算法性能、以及推动产业联盟建立统一接口标准,旨在形成国产生态“百花齐放”的发展局面。
随着国产 GPU 技术逐步成熟、开发者生态逐步完善以及产业协同不断推进,中国主权 AI 的落地路径日益清晰。摩尔线程的新一代全功能 GPU 发布会,结合郑纬民院士对算力、算法与生态的系统阐述,为国产 GPU 及主权 AI 产业提供了重要的实践指南。未来,随着大规模 GPU 集群的建设和多模态 AI 应用的推广,国产主权 AI 的创新能力与国际竞争力都将得到进一步验证。





