写点什么

DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind

  • 2025-02-11
    北京
  • 本文字数:3474 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:44
DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind

整理 | 华卫、核子可乐


就在最近,谷歌 DeepMind 围绕 DeepSeek 模型成果及其低成本所发表的看法再一次受到关注与热议。2 月 9 日,谷歌 DeepMind 首席执行官 Demis Hassabis 在一场活动上表示,DeepSeek 的人工智能模型 “可能是我见过的来自中国的最好作品”。该人工智能模型表明,DeepSeek 可以完成 “极其出色的工程”,它 “在地缘政治层面上改变了一切”。


不过,他认为,从技术角度来看,DeepSeek“并未展示任何新的科学进步”。Hassabis 称,“尽管炒作得很厉害,但实际上并没有什么新的科学进展。它使用的是已知的技术。实际上,很多技术都是我们在谷歌和 DeepMind 发明的。谷歌本周向所有人发布的公司 Gemini 2.0 Flash 模型比 DeepSeek 的模型更有效。“


此外,这位高管还驳斥了 DeepSeek 的出现颠覆了人工智能开发经济学的观点:“我们没有看到任何新的灵丹妙药技术,DeepSeek 在效率曲线上并不是一个例外。”在这方面,Anthropic 创始人 Dario Amodei 先前也称,“DeepSeek-V3 没有从根本上改变大模型的经济模式,只是符合持续降低成本曲线上的一个预期节点。不同之处在于,率先实现的是一家中国公司。”


557.6 万美元训练成本的“误会”


谈到 DeepSeek 所发布模型的训练成本数据,Hassabis 强调,DeepSeek “似乎只报告了最后一轮训练的成本,而这只是总成本的一小部分”。


与 Hassabis 观点相似,独立研究机构 SemiAnalysis 也称,目前被宣传的 DeepSeek 成本价格“明显有误解”,仅计入了物料清单中的特定部分,并不能反映其全周期内的总体投入。具体来讲,“预训练投入远远不是 DeepSeek 花在模型身上的总体金额。通过估算,该公司单硬件支出就远高于 5 亿美元。而新架构的设计与创新、以及后续模型的实际开发都需要耗费大量资金,包括测试新想法、探索新架构的可行性和进行消融实验等。”


SemiAnalysis 得出的结论是:DeepSeek 论文中提到的 557.6 万美元成本仅仅是预训练阶段的 GPU 直接成本,只占模型总实现成本中的一小部分,此外还有硬件本身的研发以及总体拥有成本(TCO)等其他投入。SemiAnalysis 还举了 Claude 的例子作为参考:Claude 3.5 Sonnet 的训练成本为数千万美元,但如果 Anthropic 真的只需要这样的投入就能完成模型构建,那他们就不会急于从谷歌和亚马逊处数十筹集亿乃至数百亿美元。这多出来的部分,还要被用于进行探索性实验、新架构设计、数据收集与清洗、支付人员工资等。


但其实即使用 DeepSeek 557.6 万美元的训练成本与 Claude 更广泛的成本做对比,也并没有太大意义。对于 557.6 万美元的训练成本,DeepSeek 在论文中已经有明确的解释:


我们再次强调下 DeepSeek-V3 的训练成本,总结在表 1 中。这是我们通过对算法、框架和硬件的优化协同设计实现的。在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 只需要 180000 个 H800 GPU 小时,即在我们拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段是在不到两个月的时间内完成的,成本为 2664,000 个 GPU 小时。再加上 119000 个 GPU 小时用于扩展上下文长度和 5000 个 GPU 小时的后训练,DeepSeek-V3 的总训练成本仅为 278.8 万个 GPU 小时。假设 H800 GPU 的租赁价格为 2 美元 / 每 GPU 小时,那我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与先前研究、架构、算法、数据和消融实验相关的成本。



关于 SemiAnalysis 提到的结构、算法、消融实验等成本问题,DeepSeek 在论文中也已经说明。不过,对于 Hassabis“仅最后一轮训练成本”的猜测,论文中并未提及。



SemiAnalysis 还对比了 OpenAI 成本下降幅度来证明成本下降是“自然”的。“目前运行在笔记本电脑上的小模型已经具备与 GPT-3 相当的性能,而当初后者可是需要一台超级计算机进行训练、再由多张 GPU 支撑推理;就 GPT-3 级别的推理成本而言,其当前成本已经下降至当初的 1/1200;将目光投向 GPT-4,其成本也出现了类似的下降幅度,只是这条曲线尚处于早期阶段。”



因此,在 SemiAnalysis 看来,“算法的改进使我们能够以更少的算力支持训练与推理,最终实现能力相同的模型,而且这样的情况仍在不断上演。(DeepSeek )之所以引发了全世界关注,是因为 V3 来自中国实验室,而小模型越来越强本身并不算什么新闻。”


据 SemiAnalysis 估计,算法的进步速度为每年 4 倍,就是说每过一年,实现相同功能所需要的算力资源就降低至四分之一。不过同时,SemiAnalysis 也强调,DeepSeek 的独特之处正在于他们率先实现了这种强大的成本与能力组合。而且虽然 DeepSeek 目前的成本水平已经相当低廉,但到今年年底,其服务成本可能会进一步降低至五分之一。


当前成果背后的更多投入


我们都知道,DeepSeek 背后是“财大气粗”的对冲基金幻方量化,管理规模超 600 亿元。据了解,幻方量化也是在交易算法中引入 AI 技术的早期先驱之一。他们很早就意识到 AI 在金融业以外领域的巨大潜力与扩展空间,因此一直在持续增加 GPU 投入,在通过具有数千张 GPU 的集群运行模型实验之后,幻方量化在出口限制尚未落地的 2021 年决定一举将 A100 GPU 增加至 1 万张。


随着项目推进,他们决定在 2023 年 5 月拆分成立“DeepSeek”,旨在更专注于追求并塑造 AI 能力。幻方量化之所以选择自筹资金,是因为当时外部投资者对于 AI 兴趣不大,认为其缺乏有利可图的商业模式。如今,幻方量化与 DeepSeek 似乎始终在大量共享资源,包括算力及人力等方面。


GPU 储备成本


DeepSeek 现已发展成为一个紧密协同的严肃项目,绝非许多人声称的“附带探索”。根据独立研究机构 SemiAnalysis 的估算,即使考虑到出口管制,其 GPU 总投资额超过了 5 亿美元(合约 36.5 亿元人民币)。SemiAnalysis 在分析报告中称,“预计 DeepSeek 共掌握约 5 万张 Hopper GPU,而非部分评论人士所言的 5 万张 H100。我们认为,DeepSeek 拥有约 1 万张 H800 和约 1 万张 H100。此外,他们还大量订购 H20 GPU。”



目前,英伟达按照法规要求推出了多个 H100 版本(分为 H800 和 H20),其中 H20 是专供中国模型服务商的型号。具体来讲,H800 的算力水平与 H100 相同,但网络带宽较低。过去 9 个月内,英伟达共生产了超百万张专供中国的 GPU H20。SemiAnalysis 指出,这批 GPU 由幻方量化与 DeepSeek 共同使用,且分散在不同地理区域,主要用于交易、推理、训练和研究等用途。


通过分析认定,SemiAnalysis 判断 DeepSeek 的总服务器资本支出约为 16 亿美元,这批集群的运营成本亦高达 9.44 亿美元。需要注意的是,设备分散化部署将带来资源集中挑战,这类情况的各 AI 实验室和超大规模基础设施运营商可能都必须采购更多 GPU 以支撑各地的研究和训练任务。现在只有 X.AI 的情况比较特殊,其全部 GPU 均集中在同一处设施之内。


人力成本


DeepSeek 专门从中国国内招募人才,不考虑以往资历,重点关注能力和好奇心。据了解,DeepSeek 定期在北大和浙江大学等顶尖高校举办校招活动,公司员工也多数毕业于这些大学。DeepSeek 提供的工作岗位往往并非提前设定好,而是具有一定灵活性,且在招聘广告中称员工可随意使用多达 1 万张 GPU。并且,DeepSeek 开出的年薪不菲。有消息称,DeepSeek 为顶尖申请者提供超过 130 万美元的年薪,远远高于其他中国科技巨头及月之暗面等竞争对手。


据公开资料显示,DeepSeek 目前的员工数量大约为 150 人左右,且仍处于快速扩张阶段。在某招聘平台可以看到,截止今日(2 月 11 日),DeepSeek 放出了 38 个招聘职位,招聘的岗位涵盖客户端研发工程师、核心系统研发工程师、AGI 数据百晓生、深度学习研发工程师、全栈开发工程师、自然语言处理算法、高级移动端开发工程师等多种不同的岗位,其中大部分岗位月薪 3 万元起步,最高至 9 万元,且都是“14 薪”,算下来年薪最高能达到百万级别。就连实习生,都开出了 500-1000 的日薪。其人力成本可见一斑。


但从 DeepSeek 的工商信息来看,杭州深度求索人工智能基础技术研究有限公司在缴社保员工仅 4 人,北京深度求索人工智能基础技术研究有限公司参保 0 人。也就是说,现在 DeepSeek 团队中的大部分人很可能都借调于母公司幻方量化。


此外,近日 DeepSeek 在北京的办公地址也被曝出位于北京北四环边上,这栋楼里还有 AMD、百度风投、苹果智元公司、红帽软件、超威半导体等,租金应当也不菲。


参考链接:


https://semianalysis.com/2025/01/31/deepseek-debates/#deepseek’s-cost-and-performance


https://www.cnbc.com/2025/02/09/deepseeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html


声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。


2025-02-11 18:1911609

评论

发布
暂无评论

内容比形式更重要

Winann

内容 生活 工作 形式主义

面试官问你MyBatis SQL是如何执行的?把这篇文章甩给他

苹果看辽宁体育

mybatis

五个“为什么” —— 读《精益创业》

YoungZY

读书笔记

[Git] Git 可以这么学

猴哥一一 cium

git

Golang热更新原理

我心依然

nginx Linux 信号 Go 语言

2020年2月北京BGP机房网络质量评测报告

博睿数据

python实现·十大排序算法之希尔排序(Shell Sort)

南风以南

Python 排序算法 希尔排序

[GitHub] 跟我一起白嫖 GitHub Pages 做个人站点 ?

猴哥一一 cium

git GitHub GitHub Pages

软件开发生产率改进之我见(一)

清水

团队管理 软件工程 技术管理

2020年2月北京BGP机房网络质量评测报告

博睿数据

APM 机房 评测 世纪互联

孩子,我们在睡前一起来阅读 15 分钟的好书,让彼此都带着好的故事入眠。

叶小鍵

正确阅读 托马斯·奥本 Doug Antin 蒂·泰德罗克

Kubectl exec 的工作原理解读

硅基新手村

Kubernetes kubelet

有价值的产品=设计思维+精益创业+敏捷方法

老彦

Scrum 敏捷开发 Agile 设计思维 精益创业

翻译敏捷行业专业外文,不只是谷歌翻译

老彦

翻译 Scrum 敏捷开发 Agile

一文带你彻底厘清 Kubernetes 中的证书工作机制

首富手记

Kubernetes

学计算机你后悔了吗?

陈辰

学习 技术 大前端

Lean UX 教你设计如何驱动产品

Yanel 说敏捷产品

产品 敏捷 设计

工厂模式 (一)简单的工厂模式概念以及示例代码

LSJ

ARTS - Week One

shepherd

js algorithm

给学妹的 Java 学习路线

武培轩

Java 学习 程序员 程序媛

李想解读《高效能人士的七个习惯》

我心依然

习惯 高效能人士的七个习惯 李想 汽车之家

Zabbix实战指南

橙子冰

技术 运维 监控 运维自动化 zabbix

实用贴丨正确的「递归」打开方式:让计算机像计算机一样去计算

博文视点Broadview

Python 递归

Elasticsearch 实战

代码诗人

Flutter的staggered GridView详细使用

潘珉

flutter

关于问题的问题 —— 读《你的灯亮着吗?》

YoungZY

读书笔记 读书

有点干货 | Jdk1.8新特性实战篇(41个案例)

小傅哥

函数式接口 Lambda 小傅哥 jdk8 编码

数仓系列 | Flink 窗口的应用与实现

Apache Flink

大数据 flink 流计算 实时计算

游戏夜读 | 如何避免乏味?两则

game1night

「开放」对协作效率的影响

Tony Wu

产品 产品设计

基于mysqldump聊一聊MySQL的备份和恢复

麦洛

MySQL

DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind_AI&大模型_华卫_InfoQ精选文章