写点什么

大模型时代,智算基础设施将走向何方?丨对话 AI 原生《云智实验室》

  • 2024-07-01
    北京
  • 本文字数:3422 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:44
大模型时代,智算基础设施将走向何方?丨对话AI原生《云智实验室》

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

大模型时代,产业对算力的需求激增,然而模型的训练不仅仅是堆算力就可以解决所有问题,如何保障大模型训练的稳定性和效率,对 AI 基础设施提出了挑战。


大模型时代对于智算基础设施提出了何种新要求?智算基础设施又将如何助力企业实现数智化转型?带着这些问题,在《对话 AI 原生:云智实验室》栏目中,百度集团产品委员会联席主席宋飞与 InfoQ 编辑围绕“大模型时代,智算基础设施如何实现超进化”展开了一场思想碰撞。


点击链接收看《大模型时代,智算基础设施如何实现超进化?》

https://www.infoq.cn/video/4bBkYmuaP20lVa4U29kM


以下为本期栏目精华内容:


InfoQ:大模型时代,智算基础设施扮演了怎样的角色?市场对平台提出了何种新要求?百度智能云是怎么做应对的呢?


宋飞:大模型快速发展的背后是规模定律(Scaling Law),简单来说就是规模越大,大模型的效果越好,而这个“规模”包含了参数、规模等等。规模定律的发展,其实是建立在算力的高速发展上的,所以大模型过去的快速发展,其实就是在智算基础发展上去进行迭代、生长的,同时其也是基于智算基础设施对外提供服务的。所以可以认为,智算基础设施就是大模型时代的水电煤。


大模型时代这个智算基础设施,相比以前的小模型时代,它的特点的关键词就是“大”。这个”大“也包括参数规模比较大、存储容量比较大,进而要求它的集群规模很大,对于客户来说,进一步要求了对于它的投入也很大。针对这些新的特点,我们需要一个新的范式去设计我们的智算基础设施,令其拥有高性能,同时又兼具高性价比,才能满足大模型时代的需求。也是基于这个特点,百度智能云致力于去设计新的范式,以及相应的产品解决方案,来满足大模型时代对于算力的需求。我们推出了百度百舸·AI 异构计算平台,致力于在稳定性,性能以及可应用等特点去进行重点打造。


InfoQ所以针对大模型的“大”这个特点,智算基础设施其实要做的是一个“化繁为简”的工作。那么百度百舸与市面上的其他智算平台有何不同?可以从性能、架构以及各种角度来给我们深入分享一下吗?


宋飞:百舸平台源自于百度十多年在 AI 基础设施领域的技术积累和工程实践。在 2021 年推出 1.0 版本以后,百度百舸持续进行升级和完善,并且服务了自动驾驶、生命科学,泛科技等领域的一些客户。百度百舸其实确实在很多方面,我们也做了全面系统的一些工作,我们致力于让百度百舸为客户提供很好的一个解决方案,所以我们在很多方面,都做了全面系统的一些工作。针对行业关注的性能维度,我们通过全链路的性能手段,让 AI 基础设施在训练领域综合能力相比业界提升 30%以上,在推理领域,提升了 60%以上,为了实现这样的提升,我们在几个细节上做了提升:


首先是集合通信库,我们推出了百度的 BCCL 通信库,它基于开源的 NCCL 通信库,并对其进行了增强和拓展。同时我们在可观测性、稳定性,性能的诊断调优等方面做了大量的提升,能够帮助客户在训练阶段,能够快速的掌握集群的通信状态,及时的发现问题,并进行相关的一些调优。


同时在做大规模的分布式训练的时候,自动的并行策略对于性能有非常重要的影响,我们开发了自动并行策略的调优工作,能够使以前的并行策略的设置,从小时级提升到分钟级,大大提升了性能的发挥效率,并且其效果是好于普通专家设置的。


在稳定性层面,我们也开发了一个全面的自动容错机制。当集群规模大的时候,故障是不可避免的,这就需要去考虑如何去降低故障对于训练任务的影响。我们希望对硬件故障的监测做到全面的提升,当出现故障的时候,让任务能够快速的恢复、重启,并在全流程进行提升,从而让硬件故障导致的任务中断,从小时级缩短到分钟级,这能够极大的提升集群的资源利用率。


InfoQ:所以百舸的优势就在于更强的性能,以及更高的稳定性,同时在不断地业务实践中不断实现优化。那么针对算力限制的问题,百度是如何通过技术领先性去突破算力瓶颈的?


宋飞:第一点就是要提升这个算力的利用率。针对这一点,我们推出了 AIAK 加速库,在应用过程中,无论是训练场景还是推理场景,都能够把已有的芯片算力进行充分发挥。这其实也是一个系统的工程,在训练层面,从 I/O 的加速到算子库的建设,再到通信优化、显存优化,每个层面我们都要做到极致,这也是我们在产品里面提供的解决方案。


在推理层面,随着大模型的落地,算力需求会越来越大。对于推理角度算力利用率的优化,包含了从底层高性能的算子,到推理图的转换优化,也包括了对于请求动态,batch 调度的技术等等,通过对这些领域一系列手段的提升,从而提升算力利用效率,将它的性能充分发挥出来,简单来说,就是把已有的算力用好。


第二层面,为了解决算力瓶颈,各家企业都在去想办法引入更多元的算力供应。这就面临了一个问题:怎么把多元算力当成一个有机整体从而利用起来?针对这一点,我们推出了业界首发的多芯混合训练解决方案。第一步是把多家的芯片聚合起来,并对其进行合理组合,使其真正变可整体使用的集群。不同的芯片的特点也不一样,我们也要去做一些自适应策略的优化,从而让分布式训练的算法在多家芯片上真正运行起来。我们也要对各家的芯片进行算力层的抽象。这种抽象之后,可能对使用者来说,就不用再关心多元芯片的差异。


通过以上一系列的手段,我们在多芯混合训练层面也达到了比较好的效果,千卡的多芯混合训练的资源效能做到了 95%,在百卡能达到 97%。这种低损耗的表现,能够真正帮助客户把多芯能力充分的发挥出来。


InfoQ:第一是把已有的芯片能力发挥出来,第二是通过多芯混合自适应的能力去让其算力发挥到最大值,还有就是屏蔽硬件差异,让多元芯片能够协同去发挥更大的能量,这其实是一个效率优化的过程。那么针对客户侧的应用,在构建基础设施时,企业最关注的是哪些功能?


宋飞:企业在实施智算基础设施并进行 AI 产业的智能化转型时,通常会经历三个阶段:首先是迅速构建起集群;其次是结合自身业务需求,在集群中对原始想法进行训练和验证;如果验证无误,便进入第三阶段,即大规模进行线上部署,将技术投入生产并实际应用。


百度百舸致力于实现"低门槛"接入,除了平台提供的运维能力和稳定性等维度外,还需提供业界的最佳实践,确保客户在每个阶段遇到问题时都能获得相应的解决方案或建议。这也正是百度智能云持续在做的。


其次,是客户所关心的性价比问题。一方面,我们需要为客户提供合理的硬件选型方案。在这方面,百度凭借多年的积累,能够为不同客户、不同规模的需求提供最佳方案。另一方面,提升性能利用率是提高性价比的重要手段,这也是我们重点关注的方向。


实现 AI 普惠是一项系统性工程,它涉及到对客户业务的深刻理解,平台提供的最佳实践,以及在产品的核心基础指标上达到业界领先水平。


InfoQ:除了性能之外,低门槛、高性价比等平台特质也至关重要,那么百度智能云智算基础设施是如何通过咱们的平台能力以及工程化能力去解决这些需求的?可以结合真实的案例给我们分享一下吗?


宋飞:智算基础设施在客户侧的落地是一项系统工程,它要求我们在技术层面和实施方案上追求极致。我们针对核心客户关注点进行了深入工作,特别是在提高集群利用率方面取得了显著成果。例如,在通讯时间优化方面,我们通过计算与通信的重叠优化,成功将集群在分布式训练中的通信时间占比从 9%降低至 2%,显著提升了集群的利用率。


企业客户非常关注性价比,这不仅涉及算力层面,还包括存储层面。我们提供了多级存储解决方案,以适应 AI 任务训练的需求。在大量数据准备和实际训练中,并非所有数据都需要使用高性能存储。通过多级存储方案,企业可以在海量、低成本存储和高性能存储之间找到平衡。我们的产品矩阵包括对象存储 BOS、高性能存储 PFS 并行文件存储,以及缓存加速产品 RapidFS,能够满足性能和存储性价比的双重需求。


InfoQ:现在有一个论调,很多人都在说这个摩尔定律已经被打破了,全球的属于 AI 的产业革命正在到来,百度是如何看待这个趋势的?并且去应对这种产业革命的到来呢?


宋飞:首先,我们确实能够观察到,新一轮大模型的驱动正引领着产业变革的新浪潮。这场变革的大幕正在缓缓拉开。在这背后,技术的算力层面所支撑的规模定律,我们认为其当前仍然有效,并且预计在未来一段时间内还将持续发展。


百度也坚信这一点,并将持续坚持自主创新,在技术研发、生态建设和人才培养等方面加大投入。我们致力于持续推出业界领先的产品和解决方案。与合作伙伴携手,我们将加快创新的步伐,共同构建新的生产力,以真正推动产业的智能化变革。


点击链接收看本期节目:https://www.infoq.cn/video/4bBkYmuaP20lVa4U29kM


公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2024-07-01 16:334858

评论

发布
暂无评论
发现更多内容

Dubbo Mesh:从服务框架到统一服务控制平台

阿里巴巴中间件

阿里云 微服务 云原生 dubbo

数字藏品系统软件开发

开源直播系统源码

NFT 数字藏品 数字藏品系统软件开发 数字藏品app

「工作小记」小程序开发的喜怒哀乐

叶一一

小程序 前端 9月月更

lodash 在vue3+vite中按需加载

木叶🐱

vite Vue3 lodash

Koordinator 0.6:企业级容器调度系统解决方案,引入 CPU 精细编排、资源预留与全新的重调度框架

阿里巴巴中间件

阿里云 云原生 Koordinator

用过这个API接口工具后,确实感觉postman有点鸡肋......

Liam

Java Postman swagger API开发 API调式

java基础学习:java中的反射

Java快了!

java;

验证一个小小的问题

艾小仙

Java MySQL 编程 程序员 compact

「工作小记」关于业务组件的思考

叶一一

前端 React 组件开发 9月月更

Java 并发编程解析 | 如何正确理解Java领域中的锁机制,我们一般需要掌握哪些理论知识?

Java快了!

Java并发 java;

与紧张为友,享受紧张

宇宙之一粟

读书笔记 个人成长 演讲 9月月更 享受紧张

WAIC 2022 | 洞见科技在可信AI论坛联合发布《可信人工智能产业生态发展报告》

洞见科技

无代码开发平台怎么选?选择合适无代码平台的13个关键步骤

优秀

无代码平台

Xshell 7 安装激活与换机转移许可证教程详解

淋雨

Linux xshell #运维

MobLink后台基本配置

MobTech袤博科技

android 开发者 iOS SDK

WAIC 2022 | 洞见科技王湾湾出席BPAA第二届应用算法实践典范,共话前沿算法产业发展

洞见科技

ShareSDK iOS端微信如何获取authcode值

MobTech袤博科技

微信 iOS SDK

leetcode 114. Flatten Binary Tree to Linked List 二叉树展开为链表(简单)

okokabcd

LeetCode 算法与数据结构

设计模式的艺术 第七章原型设计模式练习(在某销售管理系统中设计并实现了一个客户类Customer,其中包含一个名为客户地址的成员变量,客户地址的类型为Address。用浅克隆和深克隆分别实现Customer对象的复制)

代廉洁

设计模式的艺术

mysql查询 limit 1000,10 和limit 10 速度一样快吗?如果我要分页,我该怎么办?

Java快了!

MySQL

面向对象分析与设计的底层逻辑

阿里巴巴中间件

阿里云 云原生

蓝凌OA

科技云未来

发挥CODING 敏捷开发能力,腾讯云加速提升国产芯片研发效率

科技热闻

隐私计算中的算子是个啥?可视化组合配置的算子解决方案了解下

Jessica@数牍

隐私计算 算子 隐私计算性能

【xShell 7】强悍的Linux远程链接工具、终端模拟器

淋雨

Linux 运维 xshell

隐私计算,让企业大数据走进数据网络时代

Jessica@数牍

2022服贸会 | 洞见科技姚明:从智能化到密态化,数据科技向善升级

洞见科技

由循环开始的前端学习杂谈话事录-sam9029

Sam9029

前端 个人博客 成长笔记 9月月更

五分钟了解 Databend 全新 SQL 类型系统

Databend

开源项目 sql 开源社区 SQL分析

阿里云丁宇:以领先的云原生技术,激活应用构建新范式

阿里巴巴中间件

阿里云 云原生 应用构建

一文带你了解接口测试价值与体系

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

大模型时代,智算基础设施将走向何方?丨对话AI原生《云智实验室》_百度_王世昕_InfoQ精选文章