AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

一家见过“大世面”的存储公司,如何理解 AI Infra?

  • 2025-08-12
    北京
  • 本文字数:2311 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:56
一家见过“大世面”的存储公司,如何理解 AI Infra?

写在前面:


在中国,有千卡集群构建经验的企业不少,参与构建过万卡集群的企业则寥寥无几。

此处讨论的不单是算力,也包括网络、存储等关键模块。在大模型时代,我们一直在算经济账,虽然务实,但不太过瘾。

这是为什么在 WAIC 2025 ,我和 DDN 售前技术总监李凡聊的特别开心——时间不长,但启发很多。作为 AI 存储领域的头部玩家,DDN 是英伟达生态的重要伙伴,也参与了马斯克 xAI 10 万卡、20 万卡集群的建设(存储部分)。如果 AI Infra 是一幕时代大剧,那么 DDN 一定是主演名单里排名靠前的一位。

DDN 对 AI Infra 的投资节奏、AI 存储的本质特征有着独到的理解,我将核心内容整理如下,以飨读者。

 

InfoQ:很多国内朋友不真正了解 DDN,能否帮我们明确下 DDN 的定位,介绍下 DDN 的来历?

李凡:DDN 公司的历史可追溯至 1998 年在硅谷成立,至今已逾二十多年。公司早期专注于高性能计算(HPC)领域,为“超级计算机”提供存储系统。传统超算是将多个 CPU 组合而成,而如今的 AI 集群本质上是将多个 GPU 组合形成的更大规模 AI 超级计算机,DDN 也为成为其提供 AI 存储系统。DDN 已经在全球拥有超过 11,000 家客户和 1500 名员工,其中中国区员工接近 100 人,半数以上为研发人员。我们在北京和上海各设有一个研发中心。尽管其他外资企业近年来在裁员,我们却在持续招聘,满足不断增长的业务需求。

 

InfoQ:我们看到 DDN 和英伟达的两位 CEO 经常同台出现,您会怎么形容这两家公司的关系?

李凡:两家公司自 2016 年起建立了深度合作关系,涵盖技术、产品解决方案和市场层面。英伟达既是我们的客户,也是深度合作伙伴。

 

InfoQ:是否可以称 DDN 为英伟达在 AI 存储领域最大的合作伙伴?

李凡:我们认为在合作规模和优先级上,DDN 位居前列。

 

InfoQ:DDN 在全球 AI 存储的增长情况如何?方便透露吗?

李凡:在 2024 年营业额同比增长四倍,2025 年我们获得黑石集团 3 亿美元投资,估值达 50 亿美元。

 

InfoQ:现在大家都舍得给 GPU 花钱,但对存储的投资往往比较含糊。您怎么帮客户算这笔账?

李凡:许多客户的 GPU 利用率较低,甚至每月闲置时间可达 15 天,这并非算力不足,而是忽略了对 GPU 配合的高效 AI 存储的投资导致数据传输延迟所致。DDN 存储解决方案可将 GPU 等待时间从 30% 降低至 5%,相当于额外获得 25% 的 GPU 资源,从而每年节省大量成本。

 

InfoQ:那么如果要投资 AI 存储,客户怎么把握投入节奏?

李凡:建议优先选择合适的产品,提高效率的产品,而非过度采购容量。我们曾为一家国内客户提供咨询,原计划采购 50 PB 存储,我们建议先部署 20 PB,高效和可以实现无缝升级产品,这样在需要时再进行扩展。主要原因目前 AI 行业变化迅速,第二年硬件可能升级,单 PB 价格将进一步下降。今年节省的预算可用于明年更换全闪存系统,实现性能翻倍。DDN 的 AI 存储架构支持横向扩展,在线添加节点而不中断业务;明年硬件降价时再扩展,旧设备可通过回收、转租或重组处理,避免资产闲置。

 

InfoQ:那 AI 存储和传统存储到底差在哪?

李凡:传统存储的核心是确保数据存储容量,极少关注数据流动,而 AI 存储除了数据容量外还要强调“计算速度”。模型训练需处理 PB 级数据在 GPU 间的传输,数据传输慢,任何延迟均会导致 GPU 空转。还有 AI 应用出现了需要大量数据流动的复杂的“温数据”层,例如自动驾驶单车一小时产生 4 GB 原始数据,需要回传、标注、训练并通过 OTA 更新,形成闭环。且这些数据已经无法全部置于冷存储中,需要再“温数据层”再训练。

 

InfoQ:在这种变化中,DDN 胜出的原因是什么?

李凡:我认为主要有两个因素。首先,以 DDN 为例,我们源于 HPC 背景,在 AI 时代定位更为精准,即专注于服务 AI 应用的存储系统,DDN 推出面向 AI 应用的好的产品。其次是服务和工程能力。我们的售前团队具备技术专长,售后团队相当于客户的辅助运维工程师,提供 24 小时运维支持,帮助排查问题。当然,优质产品是这一切的基础。

 

InfoQ:7x24 小时运维协助,听起来不像外企的风格?

李凡:从 AI 存储角度看这是一个最基本的产品服务要求,现在在海外的数据中心相关业务,基本也都是按照这样的标准在施行了。

 

InfoQ:AI 存储这一赛道,是否存在准入门槛?

李凡:该赛道准入门槛较高,主要体现在产品投入和优化方面

 

InfoQ:如何去量化判断这一门槛?

李凡:例如,我们协助 xAI 在 122 天内完成 10 万卡集群建设,工程难度极大。该领域项目资金投入往往达数十亿或上百亿美元,客户要求供应商具备丰富经验,避免实验性风险。

 

InfoQ:我们年初发布了 Infinia 2.0 ,半年后再回看,有解决客户的问题吗?

李凡:是的,Infinia 2.0 主要针对训练和推理两种 AI 业务类型。训练阶段需高带宽,推理阶段需低延迟。该产品将对象存储延迟降至毫秒级,并支持后训练数据的实时回流。客户实测显示,推理查询时间从 200 ms 降至 50 ms,提升了线上体验。

 

InfoQ:除了产品本身的更新,GMI Cloud 的基础架构能力与 DDN 的存储解决方案也完成了整合,这种整合的技术价值是什么,效果如何?

李凡:无论与英伟达还是 GMI Cloud 的合作,本质上是提供端到端解决方案。GMI Cloud 的客户分布于亚太、北美等地,拥有全球 GPU 云资源。我们结合高速存储,形成可租赁的超级计算机。客户无需自建机房,并按小时付费。我们共同为客户提供“算力+存储+网络”的一体化解决方案和全球服务能力。

 

InfoQ:最后一个问题,站在 2025 年,哪些场景最值得您兴奋?

李凡:三个方向值得关注。首先是具身智能 Embodied AI,机器人需同时处理视觉、语音和力控数据,数据量较自动驾驶增大一个量级。其次是 AI+制造,例如特斯拉的汽车和机器人生产,本质上是数据驱动的制造过程。第三是 AI+医药,例如罗氏制药使用我们的存储进行分子动力学模拟,两周内完成过去半年的工作。

2025-08-12 15:095

评论

发布
暂无评论

甲方日常 38

句子

工作 随笔杂谈 日常

分布式关系数据库

韩向民

java安全编码指南之:文件IO操作

程序那些事

java安全编码 java安全 java安全编码指南 java代码规范

第五周课后练习

饭桶

openEuler进化记:一颗探索宇宙的生态之星

脑极体

二十四、深入Python多进程multiprocessing模块

刘润森

Python

架构师训练营第六周作业

Geek_4c1353

第五周课后总结

饭桶

架构师训练营第 1 期第 6 周作业

业哥

算法训练营毕业总结——以此自勉

Airship

算法 算法和数据结构

Javaer 进阶必看的 RocketMQ ,就这篇了

yes

RocketMQ 消息队列

云开发·多次订阅一次性订阅消息后定时发送

Yukun

微信小程序 小程序云开发 消息推送 订阅消息

程序员跳槽,只要用好(2+2)方法论,绝对可以找到一家好公司

Java架构师迁哥

来自朋友最近阿里、腾讯、美团等P7岗位面试题

艾小仙

Java 阿里巴巴 程序员 腾讯 面试

搜狗搜索或成为企鹅号流量入口:腾讯欲实现自己的流量闭环

石头IT视角

SpringCloud Alibaba开篇:SpringCloud这么火,为何还要学习SpringCloud Alibaba?

冰河

分布式 微服务 高性能 SpringCloud Alibaba

一笔订单,但是误付了两笔钱!这种重复付款异常到底该如何解决?

楼下小黑哥

支付宝 微信支付 支付系统 支付

穆长春:数字人民币“双离线”支付开发完毕后续将试点

CECBC

数字钱包

ARTS打卡 第21周

引花眠

微服务 ARTS 打卡计划 springboot

保证缓存与数据库的数据一致性不是很容易

架构师修行之路

缓存 一致性

anyRTC与京东智联云市场达成战略合作,携手音视频平台

anyRTC开发者

ios 音视频 WebRTC RTC 安卓

架構師訓練營第 1 期 - 第 05 周作業

Panda

架構師訓練營第 1 期

既不能神化,也不要泛化区块链

CECBC

金融 数字技术

openEuler开源下一代全场景虚拟化平台StratoVirt

openEuler

开源 虚拟化 openEuler stratovirt

黑幕!爆京东18A技术专家纯手打:小团队构建大网站架构实战

996小迁

Java 学习 架构 面试 笔记

缓存架构不够好,系统容易瘫痪

架构师修行之路

缓存 微服务 架构设计

你用过宏##粘贴函数,然后用函数指针查找执行吗?今天就给你说道说道

良知犹存

c c++

云原生时代 容器持久化存储的最佳方式是什么?

京东科技开发者

数据库 云存储

马云:数字货币可能会重新定义货币

CECBC

金融

现场突击京东程序员的购物车!看看"11.11"都买啥?

京东科技开发者

程序人生

这里有一份Java程序员的珍藏书单,请您注意查收

捡田螺的小男孩

Java 后端 PDF

一家见过“大世面”的存储公司,如何理解 AI Infra?_AI&大模型_王一鹏_InfoQ精选文章