写点什么

一家见过“大世面”的存储公司,如何理解 AI Infra?

  • 2025-08-12
    北京
  • 本文字数:2311 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:56
一家见过“大世面”的存储公司,如何理解 AI Infra?

写在前面:


在中国,有千卡集群构建经验的企业不少,参与构建过万卡集群的企业则寥寥无几。

此处讨论的不单是算力,也包括网络、存储等关键模块。在大模型时代,我们一直在算经济账,虽然务实,但不太过瘾。

这是为什么在 WAIC 2025 ,我和 DDN 售前技术总监李凡聊的特别开心——时间不长,但启发很多。作为 AI 存储领域的头部玩家,DDN 是英伟达生态的重要伙伴,也参与了马斯克 xAI 10 万卡、20 万卡集群的建设(存储部分)。如果 AI Infra 是一幕时代大剧,那么 DDN 一定是主演名单里排名靠前的一位。

DDN 对 AI Infra 的投资节奏、AI 存储的本质特征有着独到的理解,我将核心内容整理如下,以飨读者。

 

InfoQ:很多国内朋友不真正了解 DDN,能否帮我们明确下 DDN 的定位,介绍下 DDN 的来历?

李凡:DDN 公司的历史可追溯至 1998 年在硅谷成立,至今已逾二十多年。公司早期专注于高性能计算(HPC)领域,为“超级计算机”提供存储系统。传统超算是将多个 CPU 组合而成,而如今的 AI 集群本质上是将多个 GPU 组合形成的更大规模 AI 超级计算机,DDN 也为成为其提供 AI 存储系统。DDN 已经在全球拥有超过 11,000 家客户和 1500 名员工,其中中国区员工接近 100 人,半数以上为研发人员。我们在北京和上海各设有一个研发中心。尽管其他外资企业近年来在裁员,我们却在持续招聘,满足不断增长的业务需求。

 

InfoQ:我们看到 DDN 和英伟达的两位 CEO 经常同台出现,您会怎么形容这两家公司的关系?

李凡:两家公司自 2016 年起建立了深度合作关系,涵盖技术、产品解决方案和市场层面。英伟达既是我们的客户,也是深度合作伙伴。

 

InfoQ:是否可以称 DDN 为英伟达在 AI 存储领域最大的合作伙伴?

李凡:我们认为在合作规模和优先级上,DDN 位居前列。

 

InfoQ:DDN 在全球 AI 存储的增长情况如何?方便透露吗?

李凡:在 2024 年营业额同比增长四倍,2025 年我们获得黑石集团 3 亿美元投资,估值达 50 亿美元。

 

InfoQ:现在大家都舍得给 GPU 花钱,但对存储的投资往往比较含糊。您怎么帮客户算这笔账?

李凡:许多客户的 GPU 利用率较低,甚至每月闲置时间可达 15 天,这并非算力不足,而是忽略了对 GPU 配合的高效 AI 存储的投资导致数据传输延迟所致。DDN 存储解决方案可将 GPU 等待时间从 30% 降低至 5%,相当于额外获得 25% 的 GPU 资源,从而每年节省大量成本。

 

InfoQ:那么如果要投资 AI 存储,客户怎么把握投入节奏?

李凡:建议优先选择合适的产品,提高效率的产品,而非过度采购容量。我们曾为一家国内客户提供咨询,原计划采购 50 PB 存储,我们建议先部署 20 PB,高效和可以实现无缝升级产品,这样在需要时再进行扩展。主要原因目前 AI 行业变化迅速,第二年硬件可能升级,单 PB 价格将进一步下降。今年节省的预算可用于明年更换全闪存系统,实现性能翻倍。DDN 的 AI 存储架构支持横向扩展,在线添加节点而不中断业务;明年硬件降价时再扩展,旧设备可通过回收、转租或重组处理,避免资产闲置。

 

InfoQ:那 AI 存储和传统存储到底差在哪?

李凡:传统存储的核心是确保数据存储容量,极少关注数据流动,而 AI 存储除了数据容量外还要强调“计算速度”。模型训练需处理 PB 级数据在 GPU 间的传输,数据传输慢,任何延迟均会导致 GPU 空转。还有 AI 应用出现了需要大量数据流动的复杂的“温数据”层,例如自动驾驶单车一小时产生 4 GB 原始数据,需要回传、标注、训练并通过 OTA 更新,形成闭环。且这些数据已经无法全部置于冷存储中,需要再“温数据层”再训练。

 

InfoQ:在这种变化中,DDN 胜出的原因是什么?

李凡:我认为主要有两个因素。首先,以 DDN 为例,我们源于 HPC 背景,在 AI 时代定位更为精准,即专注于服务 AI 应用的存储系统,DDN 推出面向 AI 应用的好的产品。其次是服务和工程能力。我们的售前团队具备技术专长,售后团队相当于客户的辅助运维工程师,提供 24 小时运维支持,帮助排查问题。当然,优质产品是这一切的基础。

 

InfoQ:7x24 小时运维协助,听起来不像外企的风格?

李凡:从 AI 存储角度看这是一个最基本的产品服务要求,现在在海外的数据中心相关业务,基本也都是按照这样的标准在施行了。

 

InfoQ:AI 存储这一赛道,是否存在准入门槛?

李凡:该赛道准入门槛较高,主要体现在产品投入和优化方面

 

InfoQ:如何去量化判断这一门槛?

李凡:例如,我们协助 xAI 在 122 天内完成 10 万卡集群建设,工程难度极大。该领域项目资金投入往往达数十亿或上百亿美元,客户要求供应商具备丰富经验,避免实验性风险。

 

InfoQ:我们年初发布了 Infinia 2.0 ,半年后再回看,有解决客户的问题吗?

李凡:是的,Infinia 2.0 主要针对训练和推理两种 AI 业务类型。训练阶段需高带宽,推理阶段需低延迟。该产品将对象存储延迟降至毫秒级,并支持后训练数据的实时回流。客户实测显示,推理查询时间从 200 ms 降至 50 ms,提升了线上体验。

 

InfoQ:除了产品本身的更新,GMI Cloud 的基础架构能力与 DDN 的存储解决方案也完成了整合,这种整合的技术价值是什么,效果如何?

李凡:无论与英伟达还是 GMI Cloud 的合作,本质上是提供端到端解决方案。GMI Cloud 的客户分布于亚太、北美等地,拥有全球 GPU 云资源。我们结合高速存储,形成可租赁的超级计算机。客户无需自建机房,并按小时付费。我们共同为客户提供“算力+存储+网络”的一体化解决方案和全球服务能力。

 

InfoQ:最后一个问题,站在 2025 年,哪些场景最值得您兴奋?

李凡:三个方向值得关注。首先是具身智能 Embodied AI,机器人需同时处理视觉、语音和力控数据,数据量较自动驾驶增大一个量级。其次是 AI+制造,例如特斯拉的汽车和机器人生产,本质上是数据驱动的制造过程。第三是 AI+医药,例如罗氏制药使用我们的存储进行分子动力学模拟,两周内完成过去半年的工作。

2025-08-12 15:094074

评论

发布
暂无评论

编程语言中 null 引用的十亿美元错误趣谈

汪子熙

Java JavaScript SAP abap 10月月更

Zadig 完成 100% 开源:开启软件交付 3.0 时代

霍格沃兹测试开发学社

Vue2.x组件间通信汇总表

小鑫同学

前端 Node 10月月更

Spring JPA 查询的时候提示错 org.hibernate.TransientObjectException

HoneyMoose

谈谈前端性能优化-面试版

loveX001

JavaScript

QtCreator配置protobuf环境

中国好公民st

qt Qt Creator 10月月更

西安交大谢涛:云上做实验,让计算机教学实现质的飞跃

Lily

SAP UI5 OData谣言粉碎机:极短时间内发送两个 Odata request,前一个会自动被 cancel 掉吗

汪子熙

JavaScript 前端开发 SAP UI5 ui5 10月月更

搭建组件库最小原型(支线)

小鑫同学

前端 Node 10月月更

熬夜整理最近前端面试知识点

loveX001

JavaScript

Qt | 线程 QThread

YOLO.

c++ qt 10月月更

专访北大荆琦:产业前沿进课堂,通过产学合作培养开源贡献者

Lily

Docker load 大镜像(17G) 报错no space left on device

琦彦

Docker 10月月更 Base Device Size

区块链游戏dapp系统开发游戏链改模式定制

开发微hkkf5566

如何搭建组件库的最小原型

小鑫同学

前端 Node 10月月更

Java中的重载和重写的区别

共饮一杯无

Java 10月月更 重载重写

免安装免配置环境的免费 ios 调试工具 sib 来啦

霍格沃兹测试开发学社

测试人生 | 二线城市年薪30W+,疫情之下涨薪超过100%,是怎么做到的?

霍格沃兹测试开发学社

技术分享 | 接口自动化如何处理 Form 请求?

霍格沃兹测试开发学社

标签与指标到底有什么区别?

雨果

标签 指标

Docker下Nacos持久化配置

程序员欣宸

Docker Spring Cloud nacos 10月月更

HashSet源码全方位解读

知识浅谈

10月月更

Qt | 实现动态创建多个Tab页,页中动态创建多个子部件

YOLO.

qt 10月月更 C++

20221013

留白的艺术

通过linux-PAM实现禁止root用户登陆的方法

京东科技开发者

数据库 Linux 公有云 云主机 linux-PAM

从URL输入到页面展现到底发生什么?

loveX001

JavaScript

技术分享 | 接口自动化测试中,如何做断言验证?

霍格沃兹测试开发学社

Java基础(四)| 数组及内存分配详解

timerring

Java 数组 内存分配 10月月更

Java数组详解

共饮一杯无

Java 数组 10月月更

技术分享 | 接口测试中,请求超时该怎么办?

霍格沃兹测试开发学社

技术分享 | 接口自动化测试中,文件上传该如何测试?

霍格沃兹测试开发学社

一家见过“大世面”的存储公司,如何理解 AI Infra?_AI&大模型_王一鹏_InfoQ精选文章