AI大模型时代下的算力需求与挑战_生成式 AI_凌敏



 写点什么



大小：3.72M时长：21:41

算力是信息时代的新生产力，也是 AI 的三大要素之一。随着 ChatGPT 在全球范围内掀起 AI 大模型热潮，AI 算力需求也实现了大爆发。当前 AI 大模型的算力需求特点是什么？怎样才能降低算力的使用门槛？IT 基础设施如何应对大模型不断增长的算力需求？近日，InfoQ《极客有约》邀请到了浪潮信息 AI 应用架构师 Owen Zhu 博士，为大家分享 AI 大模型时代下的算力需求与挑战。

以下为访谈实录，完整视频参看：https://www.infoq.cn/video/axAUyTihpRTtlJBa20la

姜雨生：欢迎大家来到 InfoQ 极客有约，我是今天的特邀主持人，微软软件工程师姜雨生。本期直播，我们邀请到了浪潮信息 Owen Zhu 博士来给我们做分享。我们今天直播的主题是《AI 大模型时代下的算力需求与挑战》，首先请您给大家介绍一下浪潮信息这家公司。

Owen Zhu：非常荣幸可以在 InfoQ 这个平台上与雨生老师一起进行在线交流。首先，我想简要介绍一下浪潮信息。我们是一家历史悠久的公司，主要专注于现代技术领域，特别是在计算能力方面，提供了广泛的基础设施支持。我们可以自豪地说，我们是全球领先的 IT 基础设施提供商，涵盖了计算、存储和网络等各种领域，为互联网、金融、通信等各行各业提供产品、解决方案和服务。

随着 AI 的兴起，我们的 AI 服务器产品也处于全球领先地位。我个人负责人工智能、算法和应用领域的研究工作。在国内，每两台 AI 服务器中就有一台是由浪潮信息生产的，这也是我们的骄傲。

在算法方面，我们一直在努力开展各种工作，尤其是在大模型领域。大约两三年前，我们就开始关注大模型领域，因为这个领域对计算能力有着巨大的需求。两年前，我们发布了千亿级别的大模型“源 1.0"，至今我们仍在不断拓展大模型和其他前沿 AI 技术领域的研究和工作。

“计算力就是生产力，智算力就是创新力”

姜雨生：算力是信息时代的新生产力，能分享下您对算力及其重要性的理解吗？它的价值主要体现在哪些方面？

Owen Zhu：从浪潮信息的角度来看，我们在很早之前就开始关注算力的重要性。我们自己定位为算力供应商，因此早早地就开始强调算力的重要性，提出了像“计算力就是生产力”这样的概念。

此外，我们与全球领先的产业研究院机构如国际数据公司 IDC、清华大学进行联合编制，发布了许多关于算力的评估报告，例如，此前发布的《2022-2023 全球计算力指数评估报告》。在宏观层面上，我们对算力与经济增长之间的关系进行了评估。一个有趣的数据是，我们引入了计算力指数，它用来量化评估每个国家的算力水平，范围从 0 到 100。最新评估结果显示，十五个样本国家的计算力指数平均每提高 1 点，国家的数字经济和 GDP 将分别增长 3.6‰和 1.7‰。这个数据在国内的很多报告中都被引用，说明越来越多的人，包括政府层面，认识到了算力的重要性。

进一步来看，在智能计算领域，我们也提出了一个新概念，即智算力就是创新力，旨在生产力的基础上进一步增强人工智能计算的重要性。具体来说，人工智能在各个领域的应用中都发挥了举足轻重的作用非常明显，包括大模型。此外，在 AI for Science 这些领域，人工智能正推动着科学研究，这表明算力在提供创新力和社会创新方面发挥着根本性的作用。现在热门的 AIGC，深刻反映了 AI 在创造力方面的能力体现，而这些能力都是在算力的支持下实现的。

此外，如果我们深入研究算力对整个 AI 发展的驱动作用，可以清楚地看到，它实际上是 AI 发展的核心支持和引擎。有很多例子可以证明这一点，包括算力从 2012 年以来的指数级增长。一个具体的例子是自动驾驶领域，这个领域已经取得了长足的发展。从最早只能提供辅助驾驶功能，到能够在高速公路上实现无人干预的自动驾驶，再到最近针对城市通勤的自动驾驶应用。浪潮信息服务非常多的汽车制造商和自动驾驶客户，他们对算力的需求也在逐步增加。在这些年里，我们还看到他们在 AI 算法方面的投入，特别是在模型训练方面，从技术进步的角度看，算力的需求可能增加了数十到数百倍。

总之，无论从宏观经济发展层面还是从微观应用场景和算法层面来看，算力都扮演着至关重要的角色。

姜雨生：算力是不是分很多的类别？从你的角度来说，算力能按哪些类别来区分呢？

Owen Zhu：实际上，当我们谈论算力时，如果要进行分类，首先需要明确两个相似但不同的概念，即计算和算力。在过去，我们更多地强调计算，如云计算、边缘计算、科学计算、AI 计算、量子计算，等等。计算领域有各种分类方法，通常根据供给方式或计算发生的位置来划分，例如云计算和边缘计算。而算力实际上是计算能力的一个简称，它是一种衡量指标，通常是量化的。更进一步，我们可以使用类似 flops（每秒浮点运算次数）或者整数算力（int）等具体数值来衡量算力。因为算力是一种衡量指标，目前通常的分类方法是将其分为通用算力和专用算力，或者称之为智能算力，即 AI 算力。

为什么要这样分类呢？这背后有一些历史渊源。在过去，CPU 通常是支持计算的主要处理器，因此我们将 CPU 提供的算力称为通用算力。在 AI 时代，我们更多地使用加速计算，也就是使用 GPU 或 AI 芯片，并且在算力的具体支持方面，我们可能会使用专门针对 AI 的数据格式，如 LP16、INT8、BF16、TF32 等。因此，在进行算力衡量时，我们将其区分为通用算力和智能算力。大致来说，当今我们谈论算力时，更多的是在讨论 AI 算力。

姜雨生：针对刚才您提到的这几个分类，我们国内现在在这几方面的发展现状如何？

Owen Zhu：这个问题实际上是一个相对宏观的问题。我们之前提到过的我们和国际数据公司 IDC 的评估报告，对各个国家在算力领域的投入进行评估和打分。总体来说，我国算力总规模全球第二，仅次于美国，年增长率近 30%。将目光再聚焦于当下最热议的生成式 AI 算力，其从 2022 年的 8.2 亿美元增长到 2026 年的 109.9 亿美元，市场占比（生成式 AI 计算占整体 AI 计算市场）更是从 4.2% 增长到 31.7% 。

姜雨生：有观众提问，自动驾驶系统哪部分对算力的需求最大？

Owen Zhu：当涉及到自动驾驶时，我们需要考虑到一些关键环节，其中最重要的一个环节是感知。

在自动驾驶中，感知是一个关键步骤。车辆上配备了多种传感器，如摄像头、雷达、激光雷达等，这些传感器收集到的数据需要进行处理，通常需要引入各种人工智能模型。对于雷达数据，我们可能需要使用基于雷达的 3D 目标检测或其他模型来进行感知。对于摄像头数据，我们可能需要使用基于图片或视频的 2D 或 3D 感知算法。在整个自动驾驶系统中，感知阶段通常是算力需求最大的阶段。这些计算通常在云端完成。在实际应用之前，自动驾驶模型通常需要大规模的训练。一些领先的自动驾驶企业，如特斯拉，拥有庞大的 GPU 和 AI 算力规模。此外，一些公司还在自研 AI 芯片和 AI 算力系统，这些芯片主要用于感知。

近年来，人们还在尝试将大型模型引入自动驾驶领域，实现端到端的模型，也就是将各个环节整合到一个模型中。这意味着传感器数据被输入到一个大型模型中，以进行决策控制，并指导车辆下一步的操作。这个决策控制阶段也需要大量的算力投入。

在自动驾驶领域，算力需求不仅限于感知阶段，还包括决策控制阶段，尤其是在引入深度学习算法后。这就是目前自动驾驶领域的大致情况。

“算力的投入与智能的涌现有直接关系”

姜雨生：在我刚参加工作的时候，AI 并不是一个热门话题，很少有人提到 AI 这个概念。大多数人当时更多地从事计算机相关的工作，专注于一些传统的服务和应用层面的工作。在 AI 的大型模型兴起之前，算力用在哪些方面呢？

Owen Zhu：这是一个很有趣的问题。虽然现在公众对算力的概念越来越熟悉，近年来也举办了越来越多的专门针对算力的活动，但实际上在此之前，算力的概念早已存在。从浪潮信息的角度来看，我们早在多年前就已经开始讨论算力。至于在 AI 大模型兴起之前，实际上有很多领域都在使用算力：

互联网服务：在互联网领域，算力的需求一直很高。例如，回顾到 2019 年，百度中标了春晚的红包活动，为了支持这一活动，他们准备了高达 10 万台服务器的算力。这显示了在互联网抢红包等活动中，需要大规模的算力支持。
在线购票和出行服务：在线购票、滴滴打车、美团外卖等服务都依赖于大量的算力来支持实时交易和路线规划。
科学计算：科学领域一直在使用算力来进行复杂的计算，如天气预报、工程仿真、分子工程模拟、材料仿真等。天气预报的准确性不断提高，台风和洪水的预测也得益于强大的算力。

总之，算力在许多不同领域都发挥着关键作用，早在 AI 大模型兴起之前就已经是一个重要的资源需求。

姜雨生：我们现在正处于一个非常有趣的时刻，OpenAI 推出了 ChatGPT，全球范围内引发了对 AI 大模型的热潮。许多公司都在全力以赴投入算力，现阶段算力需求发生了哪些变化？算力对于 AI 的发展有多大的影响？

Owen Zhu：我们必须承认算力在当前 AI 发展中的重要性是非常高的，这也是为什么人们争相获取算力的根本原因。我们可以展开讨论这个问题。之前我们一直提到深度学习的三驾马车：算力、算法和数据，它们共同推动了深度学习技术的进步。但随着大模型时代的到来，尽管这些要素仍然很重要，但算力的重要性更加凸显。

为什么这样说呢？因为我们现在逐渐认识到一个事实，那就是通用人工智能引入了一些重要的概念，如泛化和涌现。这些是非常核心的能力，但如何衡量它们呢？渐渐地，业界形成了一个共识，即算力的投入与智能的涌现有着直接关系。

这个观点为什么会出现呢？从理论分析的角度来看，大模型中有一个重要概念，称为"扩展性"，即如何扩展大模型的能力。比如，如果我们要将一个模型的参数扩大 10 倍，需要训练一个 10 倍规模的模型，我们需要多少算力来支持这个过程？这就是所谓的"扩展性"问题。在这方面，OpenAI 和其他公司进行了大量研究，发现扩展模型的过程是近似线性的。这意味着，要扩大 10 倍的模型，需要 100 倍的算力投入。这使得算力成为一个重要的标尺，用来衡量模型的能力。因此，算力的投入越大，模型的能力也越强。

举个例子，GPT-3 拥有 1750 亿参数，训练时使用了 3000 亿的 token 数。而像 Llama 2 这样的新模型，虽然参数较少，只有 650 亿，但训练使用了 1.4 万亿的 token 数，实际上投入的算力更大。从评测指标上看，Llama 2 在某些方面超越了 GPT-3，这进一步证实了算力投入与模型能力的关系。

最近，有一些关于 GPT-4 的估测表明，它的算力投入可能是 GPT-3 的 68 倍，甚至更多。而谷歌即将发布的下一代模型 Gemini，被认为将投入超过 GPT-4 5 倍以上的算力。这显示出在大模型的算力投入方面，业界领先公司在成本上毫不吝啬。

姜雨生：有观众提问，在算力足够的情况下，模型能力可以无限的增强，带来无限可能吗？

Owen Zhu：业界对于这个问题尚无明确答案。然而，有一个观点是，当算力不再是限制时，数据将成为限制因素。这个观点在业界已经有一些人在讨论，即像 OpenAI 和其他互联网公司一样，他们正在大规模地进行模型训练，很快可能会耗尽互联网上的数据资源，这并非无稽之谈。

事实上，当我们自己进行数据处理时，我们会发现互联网上的文本数据的质量和数量是有限的。特别是对于中文互联网来说，由于相对封闭的特性，获取高质量的数据可能会受到一些限制。因此，数据的限制可能很快会成为一个瓶颈。因此，尽管我们拥有强大的算力，但并不意味着智能会无限增长。

然而，有很多解决方法，例如引入多模态数据。我们知道引入新的模态数据可以带入大量新信息，从而进一步提升模型的性能。因此，这个问题的解决方案可能是多种多样的，非常值得继续探讨。

“大模型时代的基础设施建设”

姜雨生：云服务提供商在算力方面可能存在垄断或半垄断的情况，这使得访问大型模型成为一种昂贵的资源。对于个人开发者来说，有些人可能确实用不到这种大型模型，而另一些人可能承受不起这些服务的高成本。有声音认为买不起算力，直接将一大部分开发者挡在了 AI 时代的大门外，您怎么看“买不起”这一现象？

Owen Zhu：今年以来，算力供应情况紧张，这涉及到多个层面的原因，不一一探讨，但与供应关系密切相关。解决买不起算力的问题，我们从基础设施和算力提供商的角度尝试各种方法。云服务可能是一种解决方案，即直接从公有云购买算力。

此外，我们提出了一个重要的概念和策略，即“智算中心”。其逻辑是，政府或类似公益机构作为主体购买和储备以 AI 算力为主的资源中心。这种方法的提供方向更侧重于社会经济效益和社会效益，而不仅仅是商业利润。通过建立智算中心，我们可以推动产业发展，例如国内模型的培训，以及改进社会效率和模型应用，从而提高生活质量和企业效率等方面的利益。因此，在解决买不起算力的问题方面，智算中心的建立有很大帮助。

多年来，我们一直在推动这些事情，并已经与许多地方政府建立了多个智算中心，如济南、南京、宿州等地，基于这样模式之上的模型已经帮助许多企业解决了各种问题，这也可以视为一种解决方案或策略。

姜雨生：对于企业而言，大模型时代基础设施建设面临两个比较大的困难：一是高额的成本，二是随着算力集群规模增大，稳定性越难做到，效率也很难提升。对于第二点，目前有哪些解决方案？

Owen Zhu：我们正在尝试解决这一问题，并与您之前提到的类似方向有些相似。实际上，我们可以从观察多家企业的现状入手，以解释这个情况。在过去，许多企业可能更倾向于使用公有云等云服务提供商的算力来满足 AI 需求，但是今年我们观察到了一些变化，即企业更倾向于选择高质量的算力，例如智算中心，或者自建基础设施。

这种变化有多个原因，其中之一是对算力的需求发生了重大变化。现在，训练 AI 大模型可能需要数百甚至上千块 GPU 卡。对于企业来说，购买如此大规模的算力可能成为挑战，因为即使是公有云，其资源分布在不同的数据中心，难以实现集中供给。此外，云服务商通常通过资源超售等方式提高利用率，从而降低成本，但对于 AI 算力，用户更希望充分利用资源，不希望资源被超售。

自建基础设施的成本可能相对较低，但也带来了一些新的挑战，如操作系统、驱动程序、环境配置、监控和调度等问题。为了解决这些问题，我们上月刚发布了一个大模型智算软件栈 OGAI，全称是 Open GenAI Infra，旨在为客户提供一套技术堆栈，通过多层次的软件解决方案来解决这些问题。这包括对智算中心的支持，以及指南和工具，帮助用户部署和配置 AI 基础设施。对于许多用户来说，特别是那些刚刚购买算力的用户，部署可能是一个挑战，因此我们提供了一个指南，以指导他们完成部署并避免一些常见问题。此外，我们还提供一些商业化的软件解决方案，用于大规模算力的调度和硬件兼容性等问题。

姜雨生：在大型 AI 模型时代，IT 服务领域的厂商正在积极探索新的可能性。展开来看，对于国内 IT 服务领域的厂商来说，大模型时代带来了一些机遇和挑战。我也很关心浪潮信息作为一家公司，是否在产品策略上发生了变化或者采取了一些创新举措。您提到了大数据平台，这确实是一个关键领域，许多公司都在不懈努力，旨在为客户提供更强大且易于使用的体验。我很想听听您的更多观点。

Owen Zhu：您谈到的关于基础设施和算力的问题，确实对 AI 行业产生了许多挑战和机遇。最近，我注意到业界开始聊到 AI 领域的人才，并强调了其重要性，可能超过了大型 AI 模型的重要性。

回到这个问题，我觉得有几个方面需要关注。首先，从市场的角度来看，当前算力仍然是一项短期内比较突出的问题，特别是在上半年，大家一直都在争抢算力资源。这种紧缺局面可能会一直持续到明年的 Q1 和 Q2。大模型对整个 AI 行业产生了革命性的影响，这是继 AlphaGo 之后的第二次重大变革。因此，算力短缺将继续存在。

第二，我们需要关注的趋势是多元异构计算的概念，尽管这听起来有点抽象。目前，主要的加速芯片是 Nvidia 的 GPU，但随着加速计算和异构计算在计算中变得越来越重要，更多的加速计算芯片和解决方案将涌现，包括英特尔的 Habana 和 AMD 的 MI 系列等针对 AI 的加速芯片。这将导致市场出现多元化的生态系统，这一趋势将逐渐凸显。因此，我们需要思考如何在这种情况下实现兼容性和融合，以确保各种芯片和产品能够无缝协作，提供给用户一个一致的接口。

第三，算力基建化将成为一个重要趋势，随着算力的不断增加，它将成为基础设施的一部分。政府、云服务提供商和科技公司等都在大规模投资和建设算力基础设施，将算力作为一种服务提供给外部。这将推动算力基建化技术的加速发展，以满足不同行业和应用领域的需求。

总之，我们需要在硬件、软件和算法等多个层面上积极应对这些趋势。在硬件层面，我们需要关注多元化的 AI 芯片接入。在软件和算法层面，我们需要投入更多的资源来研发和支持算法，以及解决用户在应用 AI 时可能遇到的问题。此外，构建生态系统也是一个关键战略，让不同领域的专业公司和行业解决方案提供商共同合作，以实现 AI 技术在各个领域的落地应用。这将有助于促进 AI 产业的发展和应用。

嘉宾介绍

特邀主持：

姜雨生，微软软件工程师，负责微软资讯业务与 GPT 集成，曾负责微软广告团队基础设施搭建与维护工作。

嘉宾：

Owen Zhu，浪潮信息 AI 应用架构师，中国科学技术大学博士。从事人工智能方向相关工作多年，当前主要负责大模型、AIGC 等前沿 AI 算法研发和 AI 应用落地研究工作。

发布

暂无评论

创作场景

AI 大模型时代下的算力需求与挑战

“计算力就是生产力，智算力就是创新力”

“算力的投入与智能的涌现有直接关系”

“大模型时代的基础设施建设”

嘉宾介绍

评论

为什么企业一定要拥有知识管理的能力

12-Redis持久化

C语言_函数封装、变量的作用域

线程简介

如何使用Tomcat实现WebSocket即时通讯服务服务端

30天消化MyBatis源码解析笔记，吊打面试官，offer接到手软

8年开发架构师浅析SpringBoot的JVM的内存占用与Docker-spring

新作！分布式系统韧性架构压舱石OpenChaos

2021秋招必刷题：Redis+Mybatis

2021腾讯最新面经总结：面试题库+实战笔记

深入了解python字典的有序特性

95% 的算法都是基于这 6 种算法思想

HashMap

[Day39]-[二叉树] 二叉搜索树中第K小的元素

浪潮云x乡村振兴：在烟台十字融合勾勒数字乡村全新蓝图

兼容PyTorch，25倍性能加速，OneFlow“超速”了

他教全世界程序员怎么写好代码，而且将所有答案写在这本书里！

NFT 智能合约中的元数据（Metadata）

60KX17薪的面试题是什么样的，需要具备什么技术？首发

AI 顶会 NeurIPS 收录：淘系技术自研3D AI 算法

云网资源如何搭乘「数字孪生」的快车道？

音视频行业玩家必读，如何实现生态合作+商业变现

知名整机厂商中科曙光加入，携手龙蜥社区共建应用生态

网站开发进阶（五十三）浅谈JS、Ajax、JQuery之间的关系

apache，httpd服务启动报错解决方法【linux用日志排错方法

Day163

网站开发进阶（五十）IE浏览器JS调试方法详解

01-Linux 系统简介

25 网站应用攻击与防御

appiun滑动的简单封装

brew使用记录

创作场景

AI 大模型时代下的算力需求与挑战

“计算力就是生产力，智算力就是创新力”

“算力的投入与智能的涌现有直接关系”

“大模型时代的基础设施建设”

嘉宾介绍

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

推荐阅读