写点什么

DeepSeek 腰斩 AI 成本,但算力资源可能“越省越费”?

窦德景

  • 2025-03-06
    北京
  • 本文字数:6221 字

    阅读完需:约 20 分钟

DeepSeek 腰斩 AI 成本,但算力资源可能“越省越费”?

本文整理自 InfoQ 策划的 DeepSeek 系列直播第 11 期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话北电数智的首席科学家、复旦大学计算机学院特聘教授窦德景,DeepSeek 爆火之后,距离实现下一个小目标还有多远,以及在这个过程中衍生出了哪些新的市场需求和产业机遇。


就像历史上蒸汽机的发明并没有减少煤炭的消耗,飞机燃油效率的提升也没有减少航空燃油的消耗。窦德景教授强调,如今 DeepSeek 虽然节省了训练和推理的算力,但它反而会驱动算力和芯片需求的激增。  


下文为直播部分内容精选,完整直播回放可点击链接查看:https://www.infoq.cn/video/ppV08VVP361bARCoFUUS


以下为窦德景教授的分享实录部分(经编辑):

大模型重新洗牌,业发生巨大震荡



DeepSeek 的出现无疑给行业带来了巨大冲击。它不仅重新洗牌了全球大模型格局,还迫使其他厂商加速技术迭代。DeepSeek V3 和 R1 已成为开源模型中的佼佼者。更令人惊艳的是,DeepSeek 在训练过程中仅使用了非常小的算力,甚至比早期的 Bert 和其他 Transformer 模型还少。这不仅颠覆了传统的“Scaling law”,还为 AI 产业发展提供了新的思路。


DeepSeek 的成功也对其他大模型厂商产生了深远影响。它证明了即使在参数较少的情况下,通过优化也能达到与最大参数模型相当的性能。这使得其他厂商开始重新思考如何在减少训练成本的同时提升模型性能。DeepSeek 的开源特性使其在 GitHub 上两个月内获得了超过 8.35 万的收藏量,超越了 OpenAI。它不仅降低了训练和推理成本,还为科研和大模型发展提供了新路径。

驱动算力与芯片需求激增


正如杰文斯效应阐述的那样,尽管 DeepSeek 加速了 AI 技术的降本过程,但它反而会驱动算力和芯片需求的激增。历史上,蒸汽机的发明并没有减少煤炭的消耗,反而使其增加;同样,飞机燃油效率的提升也没有减少航空燃油的消耗,反而使其增多。如今,DeepSeek 虽然节省了训练和推理的算力,但对芯片的需求反而会进一步增加。


从国内来看,AI 行业的“六小虎”等企业资源相对有限,但在 DeepSeek 出现后,大家意识到即使资源不多,也能开展 AI 研发。这表明 AI 的门槛已经被大幅降低,更多企业将参与其中。事实上,DeepSeek 推出后,每天都有新闻报道各个行业(无论是政府国企还是民营企业)接入 DeepSeek 的案例。与 ChatGPT 刚出现时相比,如今企业对大模型的使用已经呈现出井喷式增长。此外,利用 DeepSeek 的技术和架构,可以显著降低垂类模型开发的成本。过去,企业可能需要先选择一个基础大模型,再考虑是否需要开发行业模型(如医疗或金融),然后才能进行垂类专业模型的落地。但现在,基于 DeepSeek 的架构和基础模型,直接开发垂类模型已经成为可能


在 C 端,DeepSeek 的用户量迅速增长,其日活跃用户在国内已经位居前列。基于如此庞大的用户基础,企业可以开发出更具影响力的超级应用。这为开发者提供了强大的动力。

AI 产业化的 10 万亿市场


在 AI 产业化的广阔前景中,我们看到了一个约 10 万亿规模的巨大市场。随着 DeepSeek 等技术的出现,端侧算力的需求将极大增加。如果大家基于 DeepSeek 开发超级应用或针对 C 端进行开发,端侧算力的重要性将愈发凸显。


目前,我们已经着手重点关注金融、制造、汽车、政务、教育和医疗等领域的 AI 产业化布局。未来,我们还会拓展到更多行业。有些行业可能仍处于变革的早期阶段,而有些行业,比如通讯和互联网,由于与科技距离较近,已经发展得相对成熟。关键在于如何将 AI 融入这些行业并实现应用落地。我们相信,DeepSeek 开启了行业模型的新起点,无论是传统行业、重点关注的行业,还是科技领先的行业,DeepSeek 都将发挥重要的促进作用。


北电数智的路径非常清晰,希望拥抱这个广阔的 AI 市场,在多个领域打造垂类大模型。春节过后,我们就已经把 DeepSeek 与我们的智算中心相融合,其最大的特点是,我们实现了多种国产芯片与 DeepSeek 的适配。这意味着在我们的智算平台上,多种芯片可以同时运行并支持 DeepSeek。这不仅具有技术意义,也体现了我们对国产芯片的支持。


我们希望打造行业影响力、产业凝聚力和创新驱动力。DeepSeek 的成功只是一个开始,未来还会有更多公司投入到大模型领域,这是一件好事。竞争将促使我们不断进步,开发出更便宜、更高效的大模型,服务各行各业,构建 AI 生态体系。


以下是对话交流环节实录(经编辑)。

InfoQ:您既有研究者的身份,又有实践者的身份,那么您认为当前 AI 最亟需突破的边界是什么?


窦德景教授: 目前 AI 的发展趋势整体向好,DeepSeek 的出现为全球 AI 发展注入了新的活力和动力。过去,以 OpenAI 为代表的美国团队坚持 Scaling Law 理念,通过堆叠算力和增加模型参数来提升模型性能,例如马斯克的 Grok 3 可能使用了 10 万到 20 万张 GPU 卡来训练,参数规模应该超过万亿级别。这种直接通过扩大模型规模来提升性能的方法虽然有效,但边际效益会随着参数增长而递减。从技术角度来看,GPT-5 预计会达到约 10 万亿参数,这可能是模型规模的一个顶点。进一步扩大模型规模的意义和效益有限,因为人类大脑虽然有约 100 万亿个神经元之间的连接(对应大模型 100 万亿参数),但实际使用的比例不到 1/10。因此,未来 AI 的发展方向就应该是优化模型,而不是继续把模型做得更大,DeepSeek 在这方面已经给出了很好的启发。


另一个重要的方向是降低成本,使 AI 大模型能够在特定行业和专业领域实现盈利。目前,大模型公司普遍面临成本高昂、难以盈利的问题,用户越多,成本越高。未来,AI 公司需要探索新的商业模式,例如互联网的广告或其他盈利方式,以实现可持续发展。此外,AI 的商业化应用也面临挑战。尽管 AI 能够提升产品性能,但企业需要思考用户是否愿意为 AI 性能加持的产品付费。这不仅是技术问题,更是商业模式的探索。未来,AI 公司需要找到真正能够落地并持久发展的商业模式。

InfoQ:北电数智作为一家国企,如何平衡技术创新与产业使命之间的关系?是否有可能探索出一条新的破局之道?


窦德景教授: 我们不能认为国企就缺乏创新能力,这种逻辑本身就不成立。北电数智虽然是国资背景,由北电控股占主导股份,但我们仍是一家初创公司。我们既继承了国企的文化,也受益于北电的良好基础。北电旗下的京东方和北方华创都是千亿市值的上市公司,这足以说明国企同样能够成就一番事业。


我选择加入北电数智担任首席科学家,是因为我在波士顿咨询担任首席数据科学家时,曾为北电数智做过战略和技术规划。从技术角度出发,我们不能仅仅局限于提供算力。虽然我们不做芯片,但我们可以利用多种国产芯片,这是北京市国资委支持的项目。将多种国产芯片整合并协同运行并非易事,但我们认为这是值得尝试且可行的。我们始终保持着创新的驱动力,因为我们做的事情,无论是国企还是民企,都未曾真正做好。作为一家初创企业,我们拥有较大的灵活性,这与传统国企的“条条框框”形成鲜明对比,这也是我们的优势所在。

InfoQ:DeepSeek 爆火之后,很多人都在关心如何用 AI 技术赋能各行各业,对此您有什么建议?


窦德景教授: 各行业使用大模型本质上并无区别,以餐饮行业(注:有观众提问餐饮行业怎么用 AI?)为例,即使是传统上与 AI 距离较远的行业,也可以通过以下步骤实现大模型的应用:


  • 选择基础模型。DeepSeek 的优势在于其性能与 GPT-4 相当,且在国内可直接使用。这解决了许多企业在选择基础模型时的难题,因为 DeepSeek 不仅开源,还降低了使用门槛。

  • 针对餐饮行业,需要结合自身数据进行优化。这些数据可能来自企业自身的数据库,如销售记录、客户反馈等。同时,还需收集更多餐饮行业的公开数据,进行所谓的“后训练”,以帮助 DeepSeek 更好地理解餐饮行业的特点。

  • 通过强化学习或微调,将 DeepSeek 应用于具体场景,如菜品推荐、顾客情绪识别、智能点餐等。例如,根据顾客的历史订单和偏好生成个性化菜单,或者通过情绪识别技术实时反馈服务质量。


这种模式不仅适用于餐饮行业,其他行业如养老、零售等也可通过类似步骤实现大模型的落地应用。

InfoQ:针对智能制造、医疗、金融等 B 端场景的 AI 应用,您有什么期待吗?


窦德景教授:B 端应用相对容易一些。只要企业认为 AI 能够带来效果,比如提升效率、节省人力,他们就会愿意使用。现在很多企业,包括美国企业,已经开始减少程序员的雇佣,因为 AI 在编写程序方面确实有效。比如,我家孩子计算机系硕士毕业,原本一天需要花 8 小时写程序,现在借助 ChatGPT,一天只需要 2 小时。所以,B 端应用的持续发展是必然的。


相比之下,C 端应用要难一些。C 端用户需要愿意使用,但更重要的是愿意付费。免费提供给 C 端用户使用,增加用户数量固然重要,但这只是(互联网行业)早期阶段的策略。如果能在一两年内出现一款既能让 C 端用户愿意使用,又愿意付费的产品,那当然更好。不过,我也不确定一两年内能否出现这样的产品。

InfoQ:如果将数据放到大模型上进行训练,如何确保这些数据不会被大模型直接拿走或稀释?从您的角度来看,技术手段和制度设计应该如何协同,以解决这个问题?


窦德景教授: 在百度研究院工作期间,我开始建议联邦学习研究和技术应用,当时主要是利用百度的搜索和地图数据,结合高校的模型及疾控中心的数据集,开展疫情分析和预测合作。数据隐私问题并非 AI 时代才出现,只要涉及数据的传输和共享,就会存在风险。目前,大模型公司如 OpenAI、DeepSeek 和百度等,通常会通过免责声明或协议来保证用户数据的安全,但这更多是一种“君子协定”,缺乏技术层面的绝对保障。


为了解决这一问题,我曾建议北电数智构建可信数据空间,通过联邦学习、加密技术等手段,实现数据的“可用不可见”。例如,联邦学习允许数据在本地进行训练,仅将加密后的模型参数上传和合作方的模型进行聚合,从而保护数据隐私。此外,我知道百度也尝试过使用加密数据进行大模型训练,进一步提升数据安全性。


关于安全问题,比如可信计算和可信 AI,其实早在大模型出现之前就已经发展多年了。无论是学术研究还是产业应用,包括联邦学习,很多人都在探索。对于联邦学习来说,主要任务是训练神经网络模型。如果多方共同训练,其实不需要把数据放在同一个地方。各方可以保留自己的数据,训练自己的模型,最后通过交互模型参数(而不是数据)来完成协同训练。例如,模型参数可能是一些数值,如 0.123、0.456,但这些数值无法反推出原始数据是什么样的。


这一领域其实有很多解决方案。但问题是,这些方案往往会有额外的开销。比如,如果加入联邦学习或加解密过程,显然会增加算力需求、时间和成本。毕竟,世界上没有免费的午餐,你不能既要又要还要。比如,你不能既要求安全,又要求省算力,还要求数据量少、模型性能高。这些都是不可能同时实现的。你必须有所取舍,牺牲一些东西来换取获得另一些东西。这并不是 AI 带来的新问题,整个计算机领域一直如此——这是一个权衡(tradeoff) 的问题。

InfoQ:有学者指出高质量语料库将在 2027 年面临枯竭。对于 AI 技术和产业应用领域的不同企业而言,如何应对数据危机?合成数据训练或联邦学习是否会成为下一代技术底座?


窦德景教授: 如果数据都是合成的,隐私问题自然就不存在了。不过,就合成数据本身而言,目前大家都在使用 AI 生成合成数据来训练 AI 模型,这已经成为一种常见的做法。


我的预期是,在未来的某个阶段,我们可能不再需要依赖大量的真实训练数据。这让我联想到 AlphaGo 和 AlphaGo Zero 的区别。AlphaGo 使用了 100 万盘人类高手的棋局作为训练数据,而 AlphaGo Zero 则完全摒弃了人类棋局,仅基于围棋的基本规则,通过两个程序互相训练,就像金庸小说里面的左右互搏,最终成为绝世围棋高手。


未来,AI 训练可能会进入类似的阶段。当 AI 对物理世界的理解达到一定水平后,我们或许不再需要采集任何真实数据,而是可以直接根据物理世界的原理或规则生成所需的训练数据。当然,这可能在一两年内还难以实现。目前,所有真实数据加在一起,可能也只能训练出 5 万亿参数的模型。但如果 GPT-5 达到 10 万亿参数,按我的推测,那肯定已经用了很多合成数据。


最终,数据的使用量可能会越来越少。DeepSeek 已经表明,强化学习是一个非常强大的工具。未来,结合强化学习和对物理世界规律的理解,或许可以解决数据需求的问题。当然,这可能意味着人类的作用会进一步减弱,因为过去人类还可以通过产生真实数据来参与和帮助 AI 训练,而未来甚至连真实数据都不再需要了。这听起来可能有点悲观,但这种可能性确实存在。

InfoQ:杨立昆说这次 DeepSeek 之所以火,是因为开源模型战胜了闭源模型。那么,开源和闭源之间到底有没有一个明确的边界呢?


窦德景教授: 开源和闭源模型会长期共存。从操作系统的发展来看,Windows 一直存在并占据重要地位,Linux 也很好用。大模型类似于操作系统或搜索引擎,是未来世界的基础设施。未来的世界可能是“处处有 AI”,因此需要这样的基础设施来支持。开源和闭源各有优缺点,很难说一方一定比另一方更强。DeepSeek 的成功并不意味着闭源模型会被彻底取代,二者各有优势,会长期共同存在


在全球范围内,大模型可能最终会形成少数几个开源和闭源的主导模型。基础设施不需要“百花齐放”,而是需要几个性能好、成本低、易用性强的解决方案。例如,闭源模型可能像 Windows 一样需要付费使用,但用户愿意为其付费,因为其提供了独特的价值。目前,OpenAI 尚未明确表示 ChatGPT 5 是否会开源,而百度已经宣布将开源文心一言。

InfoQ:您曾预测 2025-2027 年是技术突破窗口期,您认为下一个可能出现的突破点是什么?预计会发生在什么时候?


窦德景教授:2024 年原先就被认为是 AI 能否真正落地应用的关键一年,但从结果来看,似乎并未达到大家的预期。至少到目前为止,很难说去年有哪一款 AI 应用真正让人眼前一亮,让大家觉得“这个东西真的能赚钱”,并引发行业一拥而上的热潮。今年,我希望能在应用端看到一些突破,哪怕是一个较小的、在特定领域内的突破,比如医疗或制药行业出现真正能落地、能盈利的 AI 应用,这是值得期待的一个方向。


另一方面,Transformer 架构自 2017 年诞生以来,已经过去了八年。一般来说,主流 AI 算法的生命周期大约是 5 到 7 年,所以从时间线上来看,Transformer 架构已经“超期服役”。因此,我推测在 未来一两年内,可能会出现一种新的算法,成为大模型或 AI 的基础架构。就在几周前,DeepSeek 发布了一个新的 NSA 架构(原生可训练的稀疏注意力架构 )。其实过去一两年,也有类似美国的 Mamba 架构等新尝试。Transformer 架构也可能继续存在,但我还是希望出现一种新的架构,从而推动 AI 更快地发展。

InfoQ:目前 DeepSeek 已引发好莱坞编剧罢工等社会冲击。未来的人机关系如何重新定义?如何预防技术跃迁期的社会撕裂?


窦德景教授: 我认为很难事先预见到技术变革带来的影响,并据此做出完美的预防措施。以汽车的出现为例,马车夫们曾因汽车的普及而失业,但后来他们通过稍作培训,成为了汽车修理厂的修理工。AI 的发展也是如此,它必然会改变人类的生活和工作方式。


对于决策者,无论是政府部门领导还是公司老板,我都觉得很难做出准确的预期。我更倾向于“顺其自然”,做好心理准备。随着 AI 的出现和发展,你的职业或工作方式肯定会发生变化。你需要接受并拥抱这种变化,努力成为能够熟练使用 AI 的人。而你节省下来的时间,可以为公司、家庭或社会做出其他贡献。至于具体做什么才是更好的贡献,我肯定无法预知。但我相信事情会自然发展,过程会相对平稳,不会出现断崖式的社会动荡。

2025-03-06 14:4110260

评论

发布
暂无评论

外贸订单回暖,集装箱持续爆舱,低代码或将成外贸行业新财富密码

优秀

低代码 外贸管理

如何做好技术 Team Leader?

阿里技术

技术管理 技术人 内容合集

Linux环境变量配置

恒生LIGHT云社区

Linux 运维 环境配置 环境变量

Linux云计算有那么难学吗?Linux入门篇。系统常用函数的调用方法大全

学神来啦

MySQL nginx Linux Shell linux云计算

MySQL从入门到入魔之数据库连接池(04)

海拥(haiyong.site)

MySQL 数据库 28天写作 12月日更

直播预告丨和我们一起过圣诞吧!Hackathon 创意攻略等你查收

PingCAP

短视频如何有效去重?vivo 短视频分享去重实践

Zilliz

数据库 Milvus Zilliz

自用学习资料,Linux内核之【内存管理】的一些分享

奔着腾讯去

内存泄露 C/C++ Linux内核 内存映射 内存池

7 个建议让 Code Review 高效又高质

阿里技术

技术管理 技术人生 内容合集

kafka的JavaAPI操作

编程江湖

大数据

如何摆脱机房教师控制?

喀拉峻

网络安全 安全 信息安全 计算机

一文带你了解什么是GitOps

华为云开发者联盟

DevOps 运维 测试 软件开发 gitops

拍乐云发布“融合语音通话”产品,实现多场景下VoIP和PSTN互通

拍乐云Pano

RTC PSTN VoIP 融合语音通话

Go 的 golang.org/x/ 系列包和标准库包有什么区别?

AlwaysBeta

golang Go 语言

上百台linux服务器管理用什么软件好?谁给推荐一下!

行云管家

Linux 服务器 服务器管理

在高并发环境下该如何构建应用级缓存

华为云开发者联盟

缓存 高并发 负载 应用级缓存 缓存命中率

RPA的定义

金小K

RPA 自动化 自动化平台 自动化运维

使用 Python Poetry 进行依赖管理

华为云开发者联盟

Python Python Poetry 依赖项管理 Poetry

毕业10年才懂,会升层思考,工作有多轻松?

阿里技术

技术管理 技术人生 内容合集

面对复杂业务,if-else coder 如何升级?

阿里技术

技术人生 内容合集

互联网时代,谁来保护我们的个人隐私信息?

郑州埃文科技

数据库 App IP 个人信息

华为超大云数据中心落地贵州,这些硬核技术有利支撑“东数西算”

华为云开发者联盟

服务器 数据中心 华为云 东数西算 云数据中心

如何成为优秀的技术主管?你要做到这三点

阿里技术

技术管理 技术人生 内容合集

在阿里,我如何做好技术项目管理?

阿里技术

技术管理 技术人生 内容合集

为什么大部分人做不了架构师?这2点是关键

阿里技术

技术人生 内容合集

为企业创建完美CRM系统策略

低代码小观

企业管理 CRM 客户关系管理 CRM系统 客户关系管理系统

2022 年最有前景的 5 个 Web IDE

开源之巅

开发者工具 WebIDE

如何提高一个研发团队的“代码速度”?

阿里技术

技术管理 技术人生 内容合集

2022 用好这 8 个工具,提升前端工程师软技能

开源之巅

Web 前端开发

互联网行业办理过等保业务,选择哪款堡垒机好?

行云管家

互联网 网络安全 堡垒机 云堡垒机

架构实战-模块七-作业

无名

架构实战营 「架构实战营」

DeepSeek 腰斩 AI 成本,但算力资源可能“越省越费”?_AI&大模型_InfoQ精选文章