写点什么

DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind

  • 2025-02-11
    北京
  • 本文字数:3474 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:44
DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind

整理 | 华卫、核子可乐


就在最近,谷歌 DeepMind 围绕 DeepSeek 模型成果及其低成本所发表的看法再一次受到关注与热议。2 月 9 日,谷歌 DeepMind 首席执行官 Demis Hassabis 在一场活动上表示,DeepSeek 的人工智能模型 “可能是我见过的来自中国的最好作品”。该人工智能模型表明,DeepSeek 可以完成 “极其出色的工程”,它 “在地缘政治层面上改变了一切”。


不过,他认为,从技术角度来看,DeepSeek“并未展示任何新的科学进步”。Hassabis 称,“尽管炒作得很厉害,但实际上并没有什么新的科学进展。它使用的是已知的技术。实际上,很多技术都是我们在谷歌和 DeepMind 发明的。谷歌本周向所有人发布的公司 Gemini 2.0 Flash 模型比 DeepSeek 的模型更有效。“


此外,这位高管还驳斥了 DeepSeek 的出现颠覆了人工智能开发经济学的观点:“我们没有看到任何新的灵丹妙药技术,DeepSeek 在效率曲线上并不是一个例外。”在这方面,Anthropic 创始人 Dario Amodei 先前也称,“DeepSeek-V3 没有从根本上改变大模型的经济模式,只是符合持续降低成本曲线上的一个预期节点。不同之处在于,率先实现的是一家中国公司。”


557.6 万美元训练成本的“误会”


谈到 DeepSeek 所发布模型的训练成本数据,Hassabis 强调,DeepSeek “似乎只报告了最后一轮训练的成本,而这只是总成本的一小部分”。


与 Hassabis 观点相似,独立研究机构 SemiAnalysis 也称,目前被宣传的 DeepSeek 成本价格“明显有误解”,仅计入了物料清单中的特定部分,并不能反映其全周期内的总体投入。具体来讲,“预训练投入远远不是 DeepSeek 花在模型身上的总体金额。通过估算,该公司单硬件支出就远高于 5 亿美元。而新架构的设计与创新、以及后续模型的实际开发都需要耗费大量资金,包括测试新想法、探索新架构的可行性和进行消融实验等。”


SemiAnalysis 得出的结论是:DeepSeek 论文中提到的 557.6 万美元成本仅仅是预训练阶段的 GPU 直接成本,只占模型总实现成本中的一小部分,此外还有硬件本身的研发以及总体拥有成本(TCO)等其他投入。SemiAnalysis 还举了 Claude 的例子作为参考:Claude 3.5 Sonnet 的训练成本为数千万美元,但如果 Anthropic 真的只需要这样的投入就能完成模型构建,那他们就不会急于从谷歌和亚马逊处数十筹集亿乃至数百亿美元。这多出来的部分,还要被用于进行探索性实验、新架构设计、数据收集与清洗、支付人员工资等。


但其实即使用 DeepSeek 557.6 万美元的训练成本与 Claude 更广泛的成本做对比,也并没有太大意义。对于 557.6 万美元的训练成本,DeepSeek 在论文中已经有明确的解释:


我们再次强调下 DeepSeek-V3 的训练成本,总结在表 1 中。这是我们通过对算法、框架和硬件的优化协同设计实现的。在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 只需要 180000 个 H800 GPU 小时,即在我们拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段是在不到两个月的时间内完成的,成本为 2664,000 个 GPU 小时。再加上 119000 个 GPU 小时用于扩展上下文长度和 5000 个 GPU 小时的后训练,DeepSeek-V3 的总训练成本仅为 278.8 万个 GPU 小时。假设 H800 GPU 的租赁价格为 2 美元 / 每 GPU 小时,那我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与先前研究、架构、算法、数据和消融实验相关的成本。



关于 SemiAnalysis 提到的结构、算法、消融实验等成本问题,DeepSeek 在论文中也已经说明。不过,对于 Hassabis“仅最后一轮训练成本”的猜测,论文中并未提及。



SemiAnalysis 还对比了 OpenAI 成本下降幅度来证明成本下降是“自然”的。“目前运行在笔记本电脑上的小模型已经具备与 GPT-3 相当的性能,而当初后者可是需要一台超级计算机进行训练、再由多张 GPU 支撑推理;就 GPT-3 级别的推理成本而言,其当前成本已经下降至当初的 1/1200;将目光投向 GPT-4,其成本也出现了类似的下降幅度,只是这条曲线尚处于早期阶段。”



因此,在 SemiAnalysis 看来,“算法的改进使我们能够以更少的算力支持训练与推理,最终实现能力相同的模型,而且这样的情况仍在不断上演。(DeepSeek )之所以引发了全世界关注,是因为 V3 来自中国实验室,而小模型越来越强本身并不算什么新闻。”


据 SemiAnalysis 估计,算法的进步速度为每年 4 倍,就是说每过一年,实现相同功能所需要的算力资源就降低至四分之一。不过同时,SemiAnalysis 也强调,DeepSeek 的独特之处正在于他们率先实现了这种强大的成本与能力组合。而且虽然 DeepSeek 目前的成本水平已经相当低廉,但到今年年底,其服务成本可能会进一步降低至五分之一。


当前成果背后的更多投入


我们都知道,DeepSeek 背后是“财大气粗”的对冲基金幻方量化,管理规模超 600 亿元。据了解,幻方量化也是在交易算法中引入 AI 技术的早期先驱之一。他们很早就意识到 AI 在金融业以外领域的巨大潜力与扩展空间,因此一直在持续增加 GPU 投入,在通过具有数千张 GPU 的集群运行模型实验之后,幻方量化在出口限制尚未落地的 2021 年决定一举将 A100 GPU 增加至 1 万张。


随着项目推进,他们决定在 2023 年 5 月拆分成立“DeepSeek”,旨在更专注于追求并塑造 AI 能力。幻方量化之所以选择自筹资金,是因为当时外部投资者对于 AI 兴趣不大,认为其缺乏有利可图的商业模式。如今,幻方量化与 DeepSeek 似乎始终在大量共享资源,包括算力及人力等方面。


GPU 储备成本


DeepSeek 现已发展成为一个紧密协同的严肃项目,绝非许多人声称的“附带探索”。根据独立研究机构 SemiAnalysis 的估算,即使考虑到出口管制,其 GPU 总投资额超过了 5 亿美元(合约 36.5 亿元人民币)。SemiAnalysis 在分析报告中称,“预计 DeepSeek 共掌握约 5 万张 Hopper GPU,而非部分评论人士所言的 5 万张 H100。我们认为,DeepSeek 拥有约 1 万张 H800 和约 1 万张 H100。此外,他们还大量订购 H20 GPU。”



目前,英伟达按照法规要求推出了多个 H100 版本(分为 H800 和 H20),其中 H20 是专供中国模型服务商的型号。具体来讲,H800 的算力水平与 H100 相同,但网络带宽较低。过去 9 个月内,英伟达共生产了超百万张专供中国的 GPU H20。SemiAnalysis 指出,这批 GPU 由幻方量化与 DeepSeek 共同使用,且分散在不同地理区域,主要用于交易、推理、训练和研究等用途。


通过分析认定,SemiAnalysis 判断 DeepSeek 的总服务器资本支出约为 16 亿美元,这批集群的运营成本亦高达 9.44 亿美元。需要注意的是,设备分散化部署将带来资源集中挑战,这类情况的各 AI 实验室和超大规模基础设施运营商可能都必须采购更多 GPU 以支撑各地的研究和训练任务。现在只有 X.AI 的情况比较特殊,其全部 GPU 均集中在同一处设施之内。


人力成本


DeepSeek 专门从中国国内招募人才,不考虑以往资历,重点关注能力和好奇心。据了解,DeepSeek 定期在北大和浙江大学等顶尖高校举办校招活动,公司员工也多数毕业于这些大学。DeepSeek 提供的工作岗位往往并非提前设定好,而是具有一定灵活性,且在招聘广告中称员工可随意使用多达 1 万张 GPU。并且,DeepSeek 开出的年薪不菲。有消息称,DeepSeek 为顶尖申请者提供超过 130 万美元的年薪,远远高于其他中国科技巨头及月之暗面等竞争对手。


据公开资料显示,DeepSeek 目前的员工数量大约为 150 人左右,且仍处于快速扩张阶段。在某招聘平台可以看到,截止今日(2 月 11 日),DeepSeek 放出了 38 个招聘职位,招聘的岗位涵盖客户端研发工程师、核心系统研发工程师、AGI 数据百晓生、深度学习研发工程师、全栈开发工程师、自然语言处理算法、高级移动端开发工程师等多种不同的岗位,其中大部分岗位月薪 3 万元起步,最高至 9 万元,且都是“14 薪”,算下来年薪最高能达到百万级别。就连实习生,都开出了 500-1000 的日薪。其人力成本可见一斑。


但从 DeepSeek 的工商信息来看,杭州深度求索人工智能基础技术研究有限公司在缴社保员工仅 4 人,北京深度求索人工智能基础技术研究有限公司参保 0 人。也就是说,现在 DeepSeek 团队中的大部分人很可能都借调于母公司幻方量化。


此外,近日 DeepSeek 在北京的办公地址也被曝出位于北京北四环边上,这栋楼里还有 AMD、百度风投、苹果智元公司、红帽软件、超威半导体等,租金应当也不菲。


参考链接:


https://semianalysis.com/2025/01/31/deepseek-debates/#deepseek’s-cost-and-performance


https://www.cnbc.com/2025/02/09/deepseeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html


声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。


2025-02-11 18:1911562

评论

发布
暂无评论

2020年度编程语言排行榜 C语言称霸,Java遭遇滑铁卢?

架构精进之路

编程语言 28天写作

博弈论 - 海盗分金

石云升

博弈论 28天写作 海盗分金

python 输入输出

赵开忠

Python 28天写作

跨界

张老蔫

28天写作

霸榜各个网站的阿里独有的高并发高并发手册:Netty、Redis、Zookeeper,看完惊呆了!

996小迁

redis zookeeper 架构 面试 Netty

案例研究之聊聊 QLExpress 源码 (三)

小诚信驿站

刘晓成 小诚信驿站 28天写作 QLExpress源码 聊聊源码

巧合?达摩院2021十大科技是十九世纪那场幻想的升级版?

Java架构师迁哥

新的方式-谷歌浏览器插件的使用【天猫超市抢购飞天茅台】

谙忆

ArgoCD + KubeVela:以开发者为中心的 GitOps

阿里巴巴云原生

阿里云 开源 容器 云原生 k8s

第1周架构方法总结

Richard

UML 需求分析 概要设计 软件架构设计 详细设计

助力ARM生态 —Dragonwell新增aarch64支持

阿里云基础软件团队

探索 React 合成事件

Geek_z9ygea

大前端 React 28天写作

理财之我见

三石

理财 28天写作

花火交易所系统开发、雷达模式系统搭建开发

W13902449729

花火交易所系统开发 雷达模式系统搭建开发

不交“人脉”交朋友:新荣耀的底气与新机

脑极体

SpringBoot太强了、ShardingSphere上榜

spring 编程 框架

产品风控:短信验证码的风控策略

香芋味的猫丶

短信防刷 产品安全 短信验证码 短信防轰炸 短信防火墙

分布式全链路灰度发布的探索与实践

阿里巴巴云原生

阿里云 微服务 运维 云原生 中间件

助力金三银四跳槽季,《Java面试突击版》第四版强势来袭

Java架构之路

Java 程序员 架构 面试 编程语言

跪了!Alibaba内部出品贼火的Java面试手册,全面对标蚂蚁金服、头条、拼多多等

Java架构之路

Java 程序员 架构 面试 编程语言

计算机网络基础

roadup

TCP 网络 HTTP 计算机 HTTP3.0

精选算法面试-队列

李孟聊AI

算法 队列 28天写作

前端性能优化

roadup

大前端 性能调优

数智化浪潮之中,传统企业如何抓住转型机遇?

京东科技开发者

DevOps

音频特征提取方法和工具汇总

行者AI

音视频

重学JS | 改变函数上下文的3种方式

梁龙先森

大前端 编程语言 28天写作

架构师训练营第七周作业

zamkai

凭借这份Java超硬核面试 “备战” 手册!我刚面试完字节跳动、阿里、华为、小米等后端岗位

Java架构之路

Java 程序员 架构 面试 编程语言

DAPP智能合约交易系统开发、DAPP系统开发的详细解释

W13902449729

DAPP智能合约交易系统开发 DAPP系统开发

12月阿里蚂蚁金服四面(已拿offer)Java技术面经总结:项目+源码+jvm调优+MySQL

Java 学习 编程 程序员 面试

redis中的一致性hash

原来不悔

redis 一致性hash

DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind_AI&大模型_华卫_InfoQ精选文章