整理 | 华卫、核子可乐

就在最近，谷歌 DeepMind 围绕 DeepSeek 模型成果及其低成本所发表的看法再一次受到关注与热议。2 月 9 日，谷歌 DeepMind 首席执行官 Demis Hassabis 在一场活动上表示，DeepSeek 的人工智能模型 “可能是我见过的来自中国的最好作品”。该人工智能模型表明，DeepSeek 可以完成 “极其出色的工程”，它 “在地缘政治层面上改变了一切”。

不过，他认为，从技术角度来看，DeepSeek“并未展示任何新的科学进步”。Hassabis 称，“尽管炒作得很厉害，但实际上并没有什么新的科学进展。它使用的是已知的技术。实际上，很多技术都是我们在谷歌和 DeepMind 发明的。谷歌本周向所有人发布的公司 Gemini 2.0 Flash 模型比 DeepSeek 的模型更有效。“

此外，这位高管还驳斥了 DeepSeek 的出现颠覆了人工智能开发经济学的观点：“我们没有看到任何新的灵丹妙药技术，DeepSeek 在效率曲线上并不是一个例外。”在这方面，Anthropic 创始人 Dario Amodei 先前也称，“DeepSeek-V3 没有从根本上改变大模型的经济模式，只是符合持续降低成本曲线上的一个预期节点。不同之处在于，率先实现的是一家中国公司。”

557.6 万美元训练成本的“误会”

谈到 DeepSeek 所发布模型的训练成本数据，Hassabis 强调，DeepSeek “似乎只报告了最后一轮训练的成本，而这只是总成本的一小部分”。

与 Hassabis 观点相似，独立研究机构 SemiAnalysis 也称，目前被宣传的 DeepSeek 成本价格“明显有误解”，仅计入了物料清单中的特定部分，并不能反映其全周期内的总体投入。具体来讲，“预训练投入远远不是 DeepSeek 花在模型身上的总体金额。通过估算，该公司单硬件支出就远高于 5 亿美元。而新架构的设计与创新、以及后续模型的实际开发都需要耗费大量资金，包括测试新想法、探索新架构的可行性和进行消融实验等。”

SemiAnalysis 得出的结论是：DeepSeek 论文中提到的 557.6 万美元成本仅仅是预训练阶段的 GPU 直接成本，只占模型总实现成本中的一小部分，此外还有硬件本身的研发以及总体拥有成本（TCO）等其他投入。SemiAnalysis 还举了 Claude 的例子作为参考：Claude 3.5 Sonnet 的训练成本为数千万美元，但如果 Anthropic 真的只需要这样的投入就能完成模型构建，那他们就不会急于从谷歌和亚马逊处数十筹集亿乃至数百亿美元。这多出来的部分，还要被用于进行探索性实验、新架构设计、数据收集与清洗、支付人员工资等。

但其实即使用 DeepSeek 557.6 万美元的训练成本与 Claude 更广泛的成本做对比，也并没有太大意义。对于 557.6 万美元的训练成本，DeepSeek 在论文中已经有明确的解释：

我们再次强调下 DeepSeek-V3 的训练成本，总结在表 1 中。这是我们通过对算法、框架和硬件的优化协同设计实现的。在预训练阶段，在每万亿个 token 上训练 DeepSeek-V3 只需要 180000 个 H800 GPU 小时，即在我们拥有 2048 个 H800 GPU 的集群上需要 3.7 天。因此，我们的预训练阶段是在不到两个月的时间内完成的，成本为 2664,000 个 GPU 小时。再加上 119000 个 GPU 小时用于扩展上下文长度和 5000 个 GPU 小时的后训练，DeepSeek-V3 的总训练成本仅为 278.8 万个 GPU 小时。假设 H800 GPU 的租赁价格为 2 美元 / 每 GPU 小时，那我们的总训练成本仅为 557.6 万美元。请注意，上述成本仅包括 DeepSeek-V3 的官方训练，不包括与先前研究、架构、算法、数据和消融实验相关的成本。

关于 SemiAnalysis 提到的结构、算法、消融实验等成本问题，DeepSeek 在论文中也已经说明。不过，对于 Hassabis“仅最后一轮训练成本”的猜测，论文中并未提及。

SemiAnalysis 还对比了 OpenAI 成本下降幅度来证明成本下降是“自然”的。“目前运行在笔记本电脑上的小模型已经具备与 GPT-3 相当的性能，而当初后者可是需要一台超级计算机进行训练、再由多张 GPU 支撑推理；就 GPT-3 级别的推理成本而言，其当前成本已经下降至当初的 1/1200；将目光投向 GPT-4，其成本也出现了类似的下降幅度，只是这条曲线尚处于早期阶段。”

因此，在 SemiAnalysis 看来，“算法的改进使我们能够以更少的算力支持训练与推理，最终实现能力相同的模型，而且这样的情况仍在不断上演。（DeepSeek ）之所以引发了全世界关注，是因为 V3 来自中国实验室，而小模型越来越强本身并不算什么新闻。”

据 SemiAnalysis 估计，算法的进步速度为每年 4 倍，就是说每过一年，实现相同功能所需要的算力资源就降低至四分之一。不过同时，SemiAnalysis 也强调，DeepSeek 的独特之处正在于他们率先实现了这种强大的成本与能力组合。而且虽然 DeepSeek 目前的成本水平已经相当低廉，但到今年年底，其服务成本可能会进一步降低至五分之一。

当前成果背后的更多投入

我们都知道，DeepSeek 背后是“财大气粗”的对冲基金幻方量化，管理规模超 600 亿元。据了解，幻方量化也是在交易算法中引入 AI 技术的早期先驱之一。他们很早就意识到 AI 在金融业以外领域的巨大潜力与扩展空间，因此一直在持续增加 GPU 投入，在通过具有数千张 GPU 的集群运行模型实验之后，幻方量化在出口限制尚未落地的 2021 年决定一举将 A100 GPU 增加至 1 万张。

随着项目推进，他们决定在 2023 年 5 月拆分成立“DeepSeek”，旨在更专注于追求并塑造 AI 能力。幻方量化之所以选择自筹资金，是因为当时外部投资者对于 AI 兴趣不大，认为其缺乏有利可图的商业模式。如今，幻方量化与 DeepSeek 似乎始终在大量共享资源，包括算力及人力等方面。

GPU 储备成本

DeepSeek 现已发展成为一个紧密协同的严肃项目，绝非许多人声称的“附带探索”。根据独立研究机构 SemiAnalysis 的估算，即使考虑到出口管制，其 GPU 总投资额超过了 5 亿美元（合约 36.5 亿元人民币）。SemiAnalysis 在分析报告中称，“预计 DeepSeek 共掌握约 5 万张 Hopper GPU，而非部分评论人士所言的 5 万张 H100。我们认为，DeepSeek 拥有约 1 万张 H800 和约 1 万张 H100。此外，他们还大量订购 H20 GPU。”

目前，英伟达按照法规要求推出了多个 H100 版本（分为 H800 和 H20），其中 H20 是专供中国模型服务商的型号。具体来讲，H800 的算力水平与 H100 相同，但网络带宽较低。过去 9 个月内，英伟达共生产了超百万张专供中国的 GPU H20。SemiAnalysis 指出，这批 GPU 由幻方量化与 DeepSeek 共同使用，且分散在不同地理区域，主要用于交易、推理、训练和研究等用途。

通过分析认定，SemiAnalysis 判断 DeepSeek 的总服务器资本支出约为 16 亿美元，这批集群的运营成本亦高达 9.44 亿美元。需要注意的是，设备分散化部署将带来资源集中挑战，这类情况的各 AI 实验室和超大规模基础设施运营商可能都必须采购更多 GPU 以支撑各地的研究和训练任务。现在只有 X.AI 的情况比较特殊，其全部 GPU 均集中在同一处设施之内。

人力成本

DeepSeek 专门从中国国内招募人才，不考虑以往资历，重点关注能力和好奇心。据了解，DeepSeek 定期在北大和浙江大学等顶尖高校举办校招活动，公司员工也多数毕业于这些大学。DeepSeek 提供的工作岗位往往并非提前设定好，而是具有一定灵活性，且在招聘广告中称员工可随意使用多达 1 万张 GPU。并且，DeepSeek 开出的年薪不菲。有消息称，DeepSeek 为顶尖申请者提供超过 130 万美元的年薪，远远高于其他中国科技巨头及月之暗面等竞争对手。

据公开资料显示，DeepSeek 目前的员工数量大约为 150 人左右，且仍处于快速扩张阶段。在某招聘平台可以看到，截止今日（2 月 11 日），DeepSeek 放出了 38 个招聘职位，招聘的岗位涵盖客户端研发工程师、核心系统研发工程师、AGI 数据百晓生、深度学习研发工程师、全栈开发工程师、自然语言处理算法、高级移动端开发工程师等多种不同的岗位，其中大部分岗位月薪 3 万元起步，最高至 9 万元，且都是“14 薪”，算下来年薪最高能达到百万级别。就连实习生，都开出了 500-1000 的日薪。其人力成本可见一斑。

但从 DeepSeek 的工商信息来看，杭州深度求索人工智能基础技术研究有限公司在缴社保员工仅 4 人，北京深度求索人工智能基础技术研究有限公司参保 0 人。也就是说，现在 DeepSeek 团队中的大部分人很可能都借调于母公司幻方量化。

此外，近日 DeepSeek 在北京的办公地址也被曝出位于北京北四环边上，这栋楼里还有 AMD、百度风投、苹果智元公司、红帽软件、超威半导体等，租金应当也不菲。

参考链接：

https://semianalysis.com/2025/01/31/deepseek-debates/#deepseek’s-cost-and-performance

https://www.cnbc.com/2025/02/09/deepseeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html

声明：本文为 InfoQ 整理，不代表平台观点，未经许可禁止转载。

创作场景

DeepMind 也酸了？CEO 怒喷 DeepSeek 成本是炒作：很多技术都来自谷歌和 DeepMind

557.6 万美元训练成本的“误会”

当前成果背后的更多投入

GPU 储备成本

人力成本