写点什么

DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind

  • 2025-02-11
    北京
  • 本文字数:3474 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:44
DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind

整理 | 华卫、核子可乐


就在最近,谷歌 DeepMind 围绕 DeepSeek 模型成果及其低成本所发表的看法再一次受到关注与热议。2 月 9 日,谷歌 DeepMind 首席执行官 Demis Hassabis 在一场活动上表示,DeepSeek 的人工智能模型 “可能是我见过的来自中国的最好作品”。该人工智能模型表明,DeepSeek 可以完成 “极其出色的工程”,它 “在地缘政治层面上改变了一切”。


不过,他认为,从技术角度来看,DeepSeek“并未展示任何新的科学进步”。Hassabis 称,“尽管炒作得很厉害,但实际上并没有什么新的科学进展。它使用的是已知的技术。实际上,很多技术都是我们在谷歌和 DeepMind 发明的。谷歌本周向所有人发布的公司 Gemini 2.0 Flash 模型比 DeepSeek 的模型更有效。“


此外,这位高管还驳斥了 DeepSeek 的出现颠覆了人工智能开发经济学的观点:“我们没有看到任何新的灵丹妙药技术,DeepSeek 在效率曲线上并不是一个例外。”在这方面,Anthropic 创始人 Dario Amodei 先前也称,“DeepSeek-V3 没有从根本上改变大模型的经济模式,只是符合持续降低成本曲线上的一个预期节点。不同之处在于,率先实现的是一家中国公司。”


557.6 万美元训练成本的“误会”


谈到 DeepSeek 所发布模型的训练成本数据,Hassabis 强调,DeepSeek “似乎只报告了最后一轮训练的成本,而这只是总成本的一小部分”。


与 Hassabis 观点相似,独立研究机构 SemiAnalysis 也称,目前被宣传的 DeepSeek 成本价格“明显有误解”,仅计入了物料清单中的特定部分,并不能反映其全周期内的总体投入。具体来讲,“预训练投入远远不是 DeepSeek 花在模型身上的总体金额。通过估算,该公司单硬件支出就远高于 5 亿美元。而新架构的设计与创新、以及后续模型的实际开发都需要耗费大量资金,包括测试新想法、探索新架构的可行性和进行消融实验等。”


SemiAnalysis 得出的结论是:DeepSeek 论文中提到的 557.6 万美元成本仅仅是预训练阶段的 GPU 直接成本,只占模型总实现成本中的一小部分,此外还有硬件本身的研发以及总体拥有成本(TCO)等其他投入。SemiAnalysis 还举了 Claude 的例子作为参考:Claude 3.5 Sonnet 的训练成本为数千万美元,但如果 Anthropic 真的只需要这样的投入就能完成模型构建,那他们就不会急于从谷歌和亚马逊处数十筹集亿乃至数百亿美元。这多出来的部分,还要被用于进行探索性实验、新架构设计、数据收集与清洗、支付人员工资等。


但其实即使用 DeepSeek 557.6 万美元的训练成本与 Claude 更广泛的成本做对比,也并没有太大意义。对于 557.6 万美元的训练成本,DeepSeek 在论文中已经有明确的解释:


我们再次强调下 DeepSeek-V3 的训练成本,总结在表 1 中。这是我们通过对算法、框架和硬件的优化协同设计实现的。在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 只需要 180000 个 H800 GPU 小时,即在我们拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段是在不到两个月的时间内完成的,成本为 2664,000 个 GPU 小时。再加上 119000 个 GPU 小时用于扩展上下文长度和 5000 个 GPU 小时的后训练,DeepSeek-V3 的总训练成本仅为 278.8 万个 GPU 小时。假设 H800 GPU 的租赁价格为 2 美元 / 每 GPU 小时,那我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与先前研究、架构、算法、数据和消融实验相关的成本。



关于 SemiAnalysis 提到的结构、算法、消融实验等成本问题,DeepSeek 在论文中也已经说明。不过,对于 Hassabis“仅最后一轮训练成本”的猜测,论文中并未提及。



SemiAnalysis 还对比了 OpenAI 成本下降幅度来证明成本下降是“自然”的。“目前运行在笔记本电脑上的小模型已经具备与 GPT-3 相当的性能,而当初后者可是需要一台超级计算机进行训练、再由多张 GPU 支撑推理;就 GPT-3 级别的推理成本而言,其当前成本已经下降至当初的 1/1200;将目光投向 GPT-4,其成本也出现了类似的下降幅度,只是这条曲线尚处于早期阶段。”



因此,在 SemiAnalysis 看来,“算法的改进使我们能够以更少的算力支持训练与推理,最终实现能力相同的模型,而且这样的情况仍在不断上演。(DeepSeek )之所以引发了全世界关注,是因为 V3 来自中国实验室,而小模型越来越强本身并不算什么新闻。”


据 SemiAnalysis 估计,算法的进步速度为每年 4 倍,就是说每过一年,实现相同功能所需要的算力资源就降低至四分之一。不过同时,SemiAnalysis 也强调,DeepSeek 的独特之处正在于他们率先实现了这种强大的成本与能力组合。而且虽然 DeepSeek 目前的成本水平已经相当低廉,但到今年年底,其服务成本可能会进一步降低至五分之一。


当前成果背后的更多投入


我们都知道,DeepSeek 背后是“财大气粗”的对冲基金幻方量化,管理规模超 600 亿元。据了解,幻方量化也是在交易算法中引入 AI 技术的早期先驱之一。他们很早就意识到 AI 在金融业以外领域的巨大潜力与扩展空间,因此一直在持续增加 GPU 投入,在通过具有数千张 GPU 的集群运行模型实验之后,幻方量化在出口限制尚未落地的 2021 年决定一举将 A100 GPU 增加至 1 万张。


随着项目推进,他们决定在 2023 年 5 月拆分成立“DeepSeek”,旨在更专注于追求并塑造 AI 能力。幻方量化之所以选择自筹资金,是因为当时外部投资者对于 AI 兴趣不大,认为其缺乏有利可图的商业模式。如今,幻方量化与 DeepSeek 似乎始终在大量共享资源,包括算力及人力等方面。


GPU 储备成本


DeepSeek 现已发展成为一个紧密协同的严肃项目,绝非许多人声称的“附带探索”。根据独立研究机构 SemiAnalysis 的估算,即使考虑到出口管制,其 GPU 总投资额超过了 5 亿美元(合约 36.5 亿元人民币)。SemiAnalysis 在分析报告中称,“预计 DeepSeek 共掌握约 5 万张 Hopper GPU,而非部分评论人士所言的 5 万张 H100。我们认为,DeepSeek 拥有约 1 万张 H800 和约 1 万张 H100。此外,他们还大量订购 H20 GPU。”



目前,英伟达按照法规要求推出了多个 H100 版本(分为 H800 和 H20),其中 H20 是专供中国模型服务商的型号。具体来讲,H800 的算力水平与 H100 相同,但网络带宽较低。过去 9 个月内,英伟达共生产了超百万张专供中国的 GPU H20。SemiAnalysis 指出,这批 GPU 由幻方量化与 DeepSeek 共同使用,且分散在不同地理区域,主要用于交易、推理、训练和研究等用途。


通过分析认定,SemiAnalysis 判断 DeepSeek 的总服务器资本支出约为 16 亿美元,这批集群的运营成本亦高达 9.44 亿美元。需要注意的是,设备分散化部署将带来资源集中挑战,这类情况的各 AI 实验室和超大规模基础设施运营商可能都必须采购更多 GPU 以支撑各地的研究和训练任务。现在只有 X.AI 的情况比较特殊,其全部 GPU 均集中在同一处设施之内。


人力成本


DeepSeek 专门从中国国内招募人才,不考虑以往资历,重点关注能力和好奇心。据了解,DeepSeek 定期在北大和浙江大学等顶尖高校举办校招活动,公司员工也多数毕业于这些大学。DeepSeek 提供的工作岗位往往并非提前设定好,而是具有一定灵活性,且在招聘广告中称员工可随意使用多达 1 万张 GPU。并且,DeepSeek 开出的年薪不菲。有消息称,DeepSeek 为顶尖申请者提供超过 130 万美元的年薪,远远高于其他中国科技巨头及月之暗面等竞争对手。


据公开资料显示,DeepSeek 目前的员工数量大约为 150 人左右,且仍处于快速扩张阶段。在某招聘平台可以看到,截止今日(2 月 11 日),DeepSeek 放出了 38 个招聘职位,招聘的岗位涵盖客户端研发工程师、核心系统研发工程师、AGI 数据百晓生、深度学习研发工程师、全栈开发工程师、自然语言处理算法、高级移动端开发工程师等多种不同的岗位,其中大部分岗位月薪 3 万元起步,最高至 9 万元,且都是“14 薪”,算下来年薪最高能达到百万级别。就连实习生,都开出了 500-1000 的日薪。其人力成本可见一斑。


但从 DeepSeek 的工商信息来看,杭州深度求索人工智能基础技术研究有限公司在缴社保员工仅 4 人,北京深度求索人工智能基础技术研究有限公司参保 0 人。也就是说,现在 DeepSeek 团队中的大部分人很可能都借调于母公司幻方量化。


此外,近日 DeepSeek 在北京的办公地址也被曝出位于北京北四环边上,这栋楼里还有 AMD、百度风投、苹果智元公司、红帽软件、超威半导体等,租金应当也不菲。


参考链接:


https://semianalysis.com/2025/01/31/deepseek-debates/#deepseek’s-cost-and-performance


https://www.cnbc.com/2025/02/09/deepseeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html


声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。


2025-02-11 18:1911493

评论

发布
暂无评论

盒子模型-css中的老生常谈

肥晨

11月月更 盒子模型 css盒子模型 css面试题

中国APM市场份额第一!博睿数据实力领跑

博睿数据

可观测性 IDC 博睿数据 ONE平台 智能运维AIOps

Linux三剑客grep、sed、awk以及正则表达式

A-刘晨阳

Linux 运维 11月月更 三剑客

OpenMLDB BUG 悬赏令

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

Linux进程管理

A-刘晨阳

Linux 运维 进程 11月月更

干货收藏|Clickhouse 常见问题及解决方案汇总

云智慧AIOps社区

MySQL 数据库 Clickhouse Data 故障处理

通过 Python FastAPI 开发一个快速的 Web API 项目

宇宙之一粟

Python Web框架 FastApi 11月月更

活动预告 | 2022 SACC 中国系统架构师大会

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

OpenMLDB 新手宝典 开发者上手必读

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

Java NIO关键概念之Buffer

老农小江

Java 源码解读 java nio

MYSQL大法之慢SQL--COMMIT

小书童

MySQL 数据库 11月月更

性能优化-懒加载(图片 组件 路由)

肥晨

懒加载 11月月更 图片懒加载 路由懒加载 组件懒加载

技术使用点二

默默的成长

Vue 前端 11月月更

20款免费项目管理软件大盘点!你用过几款?

优秀

项目管理软件

软件测试面试真题 | 什么是PO设计模式?

测试人

软件测试 自动化测试 PO 测试开发 UI自动化测试

2022年10月中国汽车智能网联月度观察

易观分析

汽车 智能网联

类和动态内存分配

Maybe_fl

Sovit3D数字孪生智慧机场三维可视化云平台

数据可视化平台

物联网 智慧机场 机场三维可视化 数字孪生机场 机场数字化转型

Java --- SpringMVC的@RequestMapping注解

鸭鸭yyds

springmvc 11月日更 11月月更

服务器的正向代理与反向代理

我是一个茶壶

服务器 正向代理与反向代理 11月月更

G1 垃圾收集器深入剖析(图文超详解)

mikechen的互联网架构

Java 架构 面试 G1垃圾回收器 11月月更

OpenMLDB 线上引擎资源需求预估模型,助你快速预估资源消耗

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

项目git-flow版本控制优化

Geek_pwdeic

git gitlab git-flow

Go 容器之队列的几种实现方式

宇宙之一粟

队列 数据结构与算法 Go 语言 11月月更

硬核技术助力提效,腾讯广告持续探索产学融合新航图

科技热闻

企业如何正确使用低代码转型升级

力软低代码开发平台

六张图详解LinkedList 源码解析

Jeremy Lai

源码 linkedlist

TOGAF企业架构框架-6架构治理和组织落地

马说IT

TOGAF 架构治理 企业架构框架

提速还能不掉点!深度解析 MegEngine 4 bits 量化开源实现

MegEngineBot

深度学习 开源 cuda MegEngine

Linux磁盘管理

A-刘晨阳

Linux 运维 磁盘 磁盘分区 11月月更

量化合约对冲交易机器人app系统开发案例

开发微hkkf5566

DeepMind 也酸了?CEO 怒喷 DeepSeek 成本是炒作:很多技术都来自谷歌和 DeepMind_AI&大模型_华卫_InfoQ精选文章