【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持

  • 2023-04-20
    北京
  • 本文字数:3516 字

    阅读完需:约 12 分钟

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持

4 月 18 日,火山引擎在其举办的“原动力大会”上发布了自研 DPU、分布式云原生平台、多云安全、多云CDN、veStack 混合云平台等等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。

 

“国内有数十家做大模型的企业,大多已经在火山引擎云上”,火山引擎总裁谭待认为,大模型不会一家独大。与其他云厂商力推自家大模型不同的是,火山引擎将接入多家大模型深度合作,为企业和消费者提供更丰富的 AI 应用。

 

另外在会上,火山引擎宣布与字节跳动国内业务并池。基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,离线业务资源分钟级调度 10 万核 CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠 80%以上。

 

上云,缓解成本焦虑

 

云的弹性,不仅能够帮助企业降低成本,也能大幅降低创新所需要的等待时间。尤其是大模型时代,训练和托管大模型都会带来大量的成本开销,继而带来巨大的价值不确定性。谭待认为,选择上云,是这个问题的最优解。火山引擎在这个方面的优势在于:

 

  • 资源复用,目前字节国内业务拥有过亿核 CPU 资源池、数十 EB 的企业存储。以此为基础,火山通过充分和抖音进行并池和混部,分钟级可调度十万级核 CPU,实现更极致的弹性和性价比。

  • 全面云原生化,字节内部计算体系已经实现超过 95%的容器化,并且基于云原生实现了超大规模存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

  • 坚持全栈自研,包括自研服务器、自研 OS、自研虚拟网络、自研 mGPU 技术等,将部署密度提升超过 500%,为上层应用带来更高资源利用率。

 

本次大会上,火山引擎还公布了全栈自研的新核心组件:火山引擎 DPU。谭待表示,云计算的本质是资源池化和软件定义,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗始终占据 10-20%的额外开销。要想提供更便宜的云服务,必须解决好这部分额外开销,把 CPU 和 GPU 释放到更关键的业务负载里。这就是火山要做 DPU 的原因。

 

据悉,火山引擎 DPU 整体网络性能升级到 5000 万 pps 转发能力,20us 延迟。目前,字节内部已经实现上万台 DPU 的部署,并且将持续提升渗透率。基于自研 DPU 的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的 GPU 实例,相较上一代实例集群性能最高提升 3 倍以上。



谭待认为,未来 3 年内,大规模的算力中心都将形成“CPU+GPU+DPU”的混合算力结构:CPU 负责通用计算,GPU 负责 AI 计算,DPU 负责资源卸载、加速和隔离,提升资源效率。

应对多云挑战

 

会上,谭待分享了一组数据:2022 年,火山引擎对超过 4500 个云消耗大于 100 万的企业进行调研,使用多云架构的企业占比达到 88%,达到历史新高;根据麦肯锡的报告,到 2025 年依然会有 42%的企业保留有私有云;根据 IDC 报告,25 年超过 30%的数据需要边缘实时处理。

 

谭待表示,造成这些现象背后的原因是复杂的,既有业务形态和成本管控的原因,也有数据安全和监管要求的原因。对于企业来说,必须要有能力来解决好这一分布式多云体系带来的挑战。

 

那么,企业如何建设好分布式云?火山引擎认为需要解决好三个问题:一是从单一公共云架构向多公共云架构升级,实现降本增效;二是从传统私有云架构向混合云架构升级,既能保障数据安全也能享受云的弹性;三是基于“算力靠近数据”的理念,形成覆盖 1-40ms 不同延时的架构方案,包括现场边缘、近场边缘和云边缘的体系化架构。

 

谭待表示,火山引擎是中国最懂多云和分布式云的云计算公司。因为字节跳动成立 11 年以来,内部使用过全球几乎每一朵公有云服务和边缘云服务,形成了一整套完整的分布式云管理体系和架构实践。

 

会上,火山引擎正式发布分布式云原生平台,能够支持超过 20 万节点,千万级核的使用场景,可以实现火山引擎云、第三方云、IDC 私有云和边缘云上集群资源与权限的统一管理,实施应用跨集群分发和故障迁移。面向边缘场景,火山引擎正式发布多云 CDN 管理平台。该平台基于字节数百 TB 带宽,十多家 CDN 厂商实操经验构建而成。安全方面,火山引擎发布了全栈多云安全平台。

 

最后,面向公有云和私有云长期并存的场景,火山引擎正式推出混合云平台:veStack。据悉,veStack 采取和火山公有云完全同源的架构设计,搭配火山 DPU 后可以让裸金属资源利用率达到 100%。此外,veStack 也支持多种异构存储协议,支持海光、鲲鹏等国产芯片服务器等。

 

云上如何创新

 

谭待分享了两个现象:一是多模态基础大模型的风起云涌。随着 ChatGPT 、GPT-4 的推出,国内的大模型创新公司也在奋力追赶;二是大模型在垂直行业的加速应用。

 

在 ChatGPT 带动下,大模型成为新的技术热点。有人认为,大模型将成为云厂商弯道超车的机会。对此,谭待表示,大模型还在发展初期,数据安全、内容安全、隐私保护、版权保护等许多问题还需要解决。但可以预见,大模型将带动云上 AI 算力急剧增长,AI 算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会对数据中心、软硬件栈、PaaS 平台带来新的挑战。

 

在大模型及下游应用发展推动下,无论传统企业还是初创企业,对 AI 算力都有迫切需求,企业使用多家云服务将成为常态。同时,各行业有自己高质量的私有语料,大模型不会一家独大,而是会在千行百业生长,形成多模型共生甚至协作的生态。谭待表示,未来将是“多云多模型”的时代。

 

为此,火山引擎发布了面向推荐场景的高速训练引擎,支持 100GB-10TB+超大模型的高效训练。该引擎实现高可用 PS-Worker 架构,支持 PS、Chief、Worker 全方位容错。另外还支持多种模型瘦身技术、多种 GPU 模式,训练加速比 10 倍以上,综合成本可降低 25%~67%。

 

同时,火山引擎对去年发布的机器学习平台进行了升级:一是全新的实验管理-模型效果对比功能:二是支持弹性实例,资源灵活调度;三是针对大模型训练场景进行了全面优化,目前可以支持万卡级别大模型训练场景,微秒级超低延时网络。



需要明确的是,火山引擎自己并不做大模型,主要是服务做大模型的公司,比如 MiniMax、智谱 AI 等。

 

谭待表示,国内很多科技公司投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力。火山引擎要做的就是为大模型客户提供高稳定性和高性价比的 AI 基础设施。

 

谭待介绍,大模型需要大算力才能做出来,此外还需要很好的工程能力,去解决千卡甚至万卡并行的训练问题、网络问题,以及训练过程中如何更早地进行人为干预、观测。这些非常依赖机器学习平台。

 

“MiniMax 的训练场景都跑在火山引擎上,我们吸引它的点,除了算力供给外,最重要的就是通过机器学习帮它解决了很多工程上的问题,让它的资源更好地集中在业务上,即模型训练、分析和提效上等。”谭待表示,“所以对于火山引擎来说,除了算力供给,另外一方面就是云原生机器学习平台。”

 

MiniMax 是目前国内少数已经推出自研大模型产品的 AI 技术公司,拥有文本、视觉、声音三种通用大模型引擎能力。据 MiniMax 联合创始人杨斌介绍,MiniMax 与火山引擎合作建立了超大规模实验平台,实现千卡级常态化训练;超大规模推理平台有万卡级算力池,支撑单日过亿次调用。在火山引擎的云上,MiniMax 大模型业务实现快速突破。

 

谭待透露,国内大模型领域,七成以上已是火山引擎客户。

 

机器学习做智能化

 

在杨震原看来,机器学习很重要的一点,是把问题数字化。数字化可以让这个问题可以定量评估。当问题可以定量评估的时候,接下来就可以智能化,进一步用机器学习的方法来优化。

 

但用机器学习做智能化会主要面临两个问题:复杂和贵。复杂是因为机器学习软件栈很深,有 PyTorch、TensorFlow 等很多平台,也涉及到框架、操作系统,还有底层的硬件等,每个环节都要做对、做好。贵则体现在人力、数据、硬件等的昂贵上。

 

字节跳动副总裁杨震原认为,机器学习做得好不好可以用下面的三角形来表示,其中最重要的是算法。算法在效果上做到领先就能对业务产生很大的价值。而支撑算法效果需求的有两件事:一是硬件 ROI,另一个是人力 ROI。

 


硬件 ROI 指的是单位模型的成本,人力 ROI 是指招一个厉害的算法工程师进来,他能否发挥最大潜能,主要看系统能否支持他足够容易、足够敏捷地去尝试新的想法。“业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。”杨震原表示,火山引擎通过潮汐、混部等方式,来实现资源的高利用率和极低成本。

 

以抖音推荐系统为例,工程师用 15 个月的样本训练某个模型,5 小时就能完成训练,成本只有 5000 元。据悉,火爆全网的抖音“AI 绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。

 

杨震原表示,火山引擎的机器学习平台是内外统一的,火山引擎客户和抖音会用使用同样的平台。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-20 11:413073

评论

发布
暂无评论
发现更多内容

自动化会提高测试覆盖率,那测试覆盖率是什么?

禅道项目管理

测试 自动化测试 测试覆盖率

Vue进阶(幺幺零):ant-design-vue

No Silver Bullet

Vue 9月日更

Python——内置模块中的内置函数

在即

9月日更

架构训练营模块七作业(补)

老实人Honey

中秋节快到了,确定不爬点月饼送岳母娘?

Regan Yue

爬虫 后端 Go 语言 引航计划 月饼

CentOS 7 小技巧合集

耳东@Erdong

centos Centos 7 9月日更

数据驱动的前提,数据质量

奔向架构师

数据治理 9月日更

研发人员如何进行有效沟通

KJ Meng

研发管理 团队协作 技术沟通 沟通艺术 软素质

架构实战营模块7作业

技术是伙伴

架构实战营

在线JSON转Rust工具

入门小站

工具

vivo营销自动化技术解密|开篇

vivo互联网技术

Java 后端 软件架构设计 电商营销 平台搭建

【LeetCode】下一个更大元素 IJava题解

Albert

算法 LeetCode 9月日更

如何应对老板项目?

石云升

项目管理 9月日更

深入理解rtmp(四)之协议实现分析

轻口味

android 音视频 RTMP 9月日更

手撸二叉树之二叉搜索树中俩个节点之和

HelloWorld杰少

9月日更

我爸电脑上有个加密压缩包,我给用 Python 给解开了

梦想橡皮擦

9月日更

【Flutter 专题】48 图解 Android 原生集成 Flutter Module

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

redis主从实践(二)

风翱

redis 9月日更

极客时间架构实战营作业三

jjn0703

架构实战营

对话华为云专家,摆脱无意义“内卷”

华为云开发者联盟

面试 华为云 就业 内卷

Golang 接受 Interfaces, 返回 Structs

baiyutang

设计模式 Go 语言 构架 9月日更

Java Stream 源码深入解析

Zexho

Java 源码 stream jdk8

WEB 剪切板操作navigator.clipboard的使用

devpoint

Blob 9月日更

如何将集合中的数据List,对比写入系统中

卢卡多多

集合 同步 9月日更

架构实战营模块八作业

老猎人

架构实战营

安全系列之:跨域资源共享CORS

程序那些事

Java HTTP CORS 程序那些事 跨域资源共享

B站就是一个神奇的地方

IT蜗壳-Tango

9月日更

Vue进阶(幺零九):npm install 遇到 -4048 错误的解决办法

No Silver Bullet

Vue 9月日更

Java基础知识查漏补缺

IT蜗壳-Tango

9月日更

看好创业项目,避免藏在乐观下的无知状态

boshi

创业

linux之chroot命令

入门小站

Linux

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持_语言 & 开发_褚杏娟_InfoQ精选文章