写点什么

重磅!中国团队发布 SRDA 新计算架构,从根源解决 AI 算力成本问题,DeepSeek“神预言”成真?

玉盘 AI 团队

  • 2025-06-11
    北京
  • 本文字数:3000 字

    阅读完需:约 10 分钟

大小:1.49M时长:08:40
重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?

作者 | 玉盘 AI 团队

审核 | 华卫


“大模型每生成 1 美元价值,需支付 3 美元算力成本”,算力成本挑战已无争议。从软件层面的各类优化方案层出不穷,真正从硬件源头着手的方案却屈指可数,市面上能看到的包括 Groq 在内的新计算硬件也多数在大模型爆发前定型,难以充分匹配大模型本身的需求。



近日,国内团队玉盘 AI 发布《SRDA AI 大模型专用计算架构》白皮书,提出了一种全新的计算架构:系统级精简可重构数据流架构 SRDA (System-level Simplified Reconfigurable Dataflow Architecture),从硬件源头解决当前 AI 算力的核心瓶颈。



与此同时,DeepSeek 于半个月前发表论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,从用户视角梳理了当前大模型训练与推理中所面临的 AI 硬件瓶颈,以及对未来 AI 硬件的构想建议。



DeepSeek 从用户角度的不少构想与玉盘 SRDA 在做的事不谋而合,包括 IO 融合、3D 堆叠 DRAM 等,而玉盘进一步提出了更完整的架构设计,或正式拉开下一代大模型专用计算架构的序幕。


软硬两头的交汇或暗示业界已逐渐形成共识,即当前算力已不再是瓶颈,瓶颈在于绝大多数算力浪费在了数据搬运及读写上(互联和内存等 I/O 问题)。SRDA 相关思路是否将在不久的未来颠覆 GPGPU 目前在 AI 场景的垄断地位?


当前类 GPGPU 计算架构的困境


硬件架构层面的创新比较少见,人们通常认为国产算力的问题在于制程或封装技术,这种理解源于默认 GPGPU 架构是 AI 大模型的最优架构(GPGPU 架构强依赖先进制程及先进封装)。白皮书认为,GPGPU 是非常优秀的计算架构,但为保证通用性,不会完全针对大模型训练及推理的诸多需求,就像用瑞士军刀切牛排——不是刀不快,而是工具缺乏针对性。


在深入 SRDA 架构细节前,白皮书回顾了目前开发者们普遍面临的难题:


  • 内存与互联带宽不足:H100 每秒可计算 1000 万亿次,但其共享内存架构 + 低内存带宽仅够“喂饱”不足一半的硬件算力,如同几台车抢一个车位。

  • 算力利用率不足:受限于类 GPGPU 架构本身的通信开销及内存瓶颈,芯片的理论算力在实际 AI 负载中往往大打折扣。

  • 网络复杂,大规模集群扩展瓶颈:传统多层网络(节点内高速互联如 NVLink,节点间网络如 InfiniBand/ 以太网)设计复杂,带来带宽层级差异、协议转换开销和管理难题,阻碍了超大规模集群的效能发挥。

  • 功耗过大:以 H100 为例,单卡 700 瓦的 GPU 集群,超三分之一的电量用于数据“搬家”而非计算。


正如 GPGPU 曾广泛用于矿机市场,而后由专用的矿卡芯片替代,站在在今天这个时点,大模型技术需求逐步清晰及收敛,Transformer 等主流架构也已经有明确的市场需求,也给了新的 AI 专用架构机会。


目前多数针对 AI 场景的专用架构(DSA,Domain Specific Architecture)多是在 2023 年大模型爆发前或 2024 年大模型技术收敛前设计的,对大模型的特定需求缺乏充分考虑,很多并没有摆脱 GPGPU SIMT 架构线程间抢占资源、多级共享 Cache、用计算单元处理通讯任务等设计,因此也有和 GPGPU 相似的问题:算力利用率低、依赖先进制程等,依靠后天的软件做算力优化,进而陷入烧钱复刻 CUDA、堆制程等怪圈。


下一代 AI 大模型算力芯片的关键要素


白皮书认为下一代 AI 计算架构应具备以下一系列关键特征:


  • 基于 3D 堆叠创新的内存系统设计与超高带宽

  • 一体化融合网络

  • 原生数据流处理能力

  • 先进的低精度计算支持

  • 计算与通信的深度协同与优化

  • 高度灵活的模型映射与可重构性


SRDA:系统级数据流 +3D 堆叠内存 +I/O 融合 + 极简可重构


与类 GPGPU 架构“控制流”为核心的思想不同,SRDA 架构的设计哲学是将“数据流”置于核心,从数据 I/O 切入,实现从 AI 芯片到 AI 数据中心系统的整体优化。


数据中心系统级数据流:让计算跟着数据跑


AI 计算,尤其是深度神经网络的训练与推理,本质是大规模、并行化的数据在计算节点间依照特定计算图(Computational Graph)进行流动和转换的过程。传统"控制流"架构(Control-Flow Architecture)下,指令的顺序执行和复杂的内存层级访问常常成为性能瓶颈,导致计算单元空转,以及不必要的数据搬运。


SRDA 架构则将“数据流”(Data-Flow)作为第一性原理,通过硬件设计直接映射 AI 计算图中的数据依赖关系。中间数据在经过优化的、可定制的计算路径上,于计算单元之间点到点直接传输,大幅减少了对内存的依赖和访问次数。这种设计理念从根本上减少了数据移动的距离和频率——当前计算系统中主要的性能和能耗瓶颈之一。



SRDA 还通过 I/O 融合等技术创新,将这种数据流思想不仅应用于芯片,还应用于节点乃至整个集群,实现了系统级的数据流计算范式。


内存架构革命:给每个计算单元配“独享车位”


为彻底攻克内存瓶颈,SRDA 修改整个内存架构,在计算芯片上直接分布式地集成超高带宽、大容量 3D-DRAM 内存,实现内存带宽的极致提升。



其核心思路的突破在于“计算单元内存私有化”:每个计算核心拥有专属的内存区域,数据访问在本地完成,彻底消除了共享总线和内存竞争导致的拥塞 。这与 GPGPU 架构依赖共享内存、多计算核心并发访问易产生拥塞的模式形成鲜明对比 。


颗粒层面,3D-DRAM 本身可实现远超 HBM 的超高带宽,相关技术上国内也一直领先于海外,是内存方面国产方案弯道超车的好思路,SRDA 架构能充分发挥 3D-DRAM 优势,“SRDA+3D-DRAM”或许有望替代“GPGPU+HBM”成为新的 AI 存算王炸组合。


融合互联网络:单层统一,简化集群复杂度


针对传统两层网络的痛点,SRDA 将节点内高速互联(Scale-up)和节点间通信网络(Scale-out)融合成统一的单层网络,显著简化网络拓扑,降低协议转换和管理开销,并能有效减少后端网络端口数量,从而降低部署成本和复杂度。


玉盘将其独有的 I/O 融合互联技术称为 QLink,大有直接超越 NVLink 的意味。



极简可重构:适度灵活,高效开发


  • 可重构性:AI 模型仍在发展(Transformer, MoE, Mamba, DiT, ViT 等),SRDA 允许用户根据模型调整数据流路径、计算单元功能和内存模式,适应未来模型变化。

  • 为 AI 而生 (AI-DSA):SRDA 可重构,但不追求绝对通用(会导致软件栈如 CUDA 般复杂),其剥离通用处理器冗余,聚焦 AI 核心运算,且底层基于开源 RISC-V 指令集,提供简化指令,并降低算子开发难度。


SRDA 为开发者带来的核心价值


SRDA 架构旨在为 AI Infra 和 LLM 开发者带来:


  • 更高有效性能:通过基于 3D-DRAM 的分布式内存解决内存瓶颈,通过融合网络优化通信,通过数据流设计减少搬运,显著提升端到端算力利用率 。

  • 更低成本:提升单卡 / 单节点效率,降低功耗,简化网络和软件栈,从而优化总体拥有成本(TCO)。

  • 更高稳定性:融合网络设计及故障隔离能力也将提升大规模集群的稳定性。

  • 灵活的模型与算法适应性:可重构特性使其能灵活支持不断演进的 AI 模型与算法。

  • 更简单的开发与迁移:由于数据流架构与控制流不同,SRDA 舍弃通用性的同时,也不再需要类 CUDA 那样复杂的软件库。


与 DeepSeek 论文的以点带面不同,玉盘 SRDA 架构白皮书提出了相对完整的架构方案,特别是对 I/O 瓶颈的针对性设计,为 AI 算力芯片的发展路径提供了系统性的思路。


对身处 AI 浪潮之中的开发者而言,SRDA 所倡导的系统级数据流的理念和技术路径值得关注,近期我们确实也开始频繁看见“数据流”思想。或许在不久的将来,我们就会看到包括玉盘在内的更多 AI 芯片公司开始采用类 SRDA 架构。


更多有关《SRDA 计算架构白皮书》的细节可见:https://github.com/moonquest-ai/SRDA/tree/main 

2025-06-11 18:375

评论

发布
暂无评论

实时告警与性能监控:通过时序数据库 TDengine、taosKeeper 和 TDinsight 实现无缝监控

TDengine

数据库 tdengine

消失的一个多月,我用 AI 做了三个项目,简直不要太爽!

沉浸式趣谈

时序数据库TDengine 2024 年终总结:与时代共跑的马拉松,我们携手同行

TDengine

数据库 tdengine 时序数据库

【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断

YashanDB

数据库 yashandb

【YashanDB知识库】YAS-00402 failed to connect socket, errno 111, error message "Connection refused"

YashanDB

数据库 yashandb

读懂华为开发者空间第一课,让云上开发如此简单

华为云开发者联盟

鸿蒙 软件开发 云主机 昇腾 CodeArts

自学记录:学习HarmonyOS Location Kit构建智能定位服务

李游Leo

鸿蒙 HarmonyOS

亚马逊直播网络不好的影响及改善方法

Ogcloud

海外直播专线 直播专线 亚马逊直播 亚马逊直播网络 亚马逊直播专线

2000 多位开发者测评通义灵码后,我们发现了大家「去班味」的原因

阿里云云效

阿里云 云原生

这两天在改BUG,下午就被通知在改进优化了...

Summer

Java 程序员 面试 架构师 大厂

履约系统:应用层、领域层、集成关系设计

不在线第一只蜗牛

Java 大数据 运维

【YashanDB知识库】listagg拼接结果发生溢

YashanDB

数据库 yashandb

英特尔2024产品年鉴:AI与软硬件的融合发展

E科讯

酷睿Ultra 200S体验持续进化:精细化超频立功,游戏越来越快

E科讯

MIT、OpenAI震撼力作!AI自主发现人工生命,软件测试行业如何迎接未来挑战?

测吧(北京)科技有限公司

测试

智慧酒店产业发展中的新突破——时序数据库TDengine与广东粤万润科技的深度合作

TDengine

数据库 tdengine

企业数字化转型的构念及实现路径

不在线第一只蜗牛

低代码 数字化

英特尔2024技术篇章:矢志探索,砥砺前行

E科讯

揭秘!如何将动效描述自动转化为动效代码

快手技术

Java 前端 动效

【YashanDB知识库】imp导入数据库时,报错YAS-08023

YashanDB

数据库 yashandb

【YashanDB知识库】sys登录提示账户被锁,怎么处理?

YashanDB

数据库 yashandb

校招生技术简历撰写与求职全攻略 —— 从项目实践到薪资谈判的全方位指导

测吧(北京)科技有限公司

测试

2000 多位开发者测评通义灵码后,我们发现了大家「去班味」的原因

阿里巴巴云原生

阿里云 云原生

Sense 对话语音 AI:自动电话呼叫加快招聘流程;灵初智能发布端到端强化学习具身模型,实现长程任务泛化

声网

重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?_芯片&算力_InfoQ精选文章