NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持

  • 2023-04-20
    北京
  • 本文字数:3516 字

    阅读完需:约 12 分钟

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持

4 月 18 日,火山引擎在其举办的“原动力大会”上发布了自研 DPU、分布式云原生平台、多云安全、多云CDN、veStack 混合云平台等等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。

 

“国内有数十家做大模型的企业,大多已经在火山引擎云上”,火山引擎总裁谭待认为,大模型不会一家独大。与其他云厂商力推自家大模型不同的是,火山引擎将接入多家大模型深度合作,为企业和消费者提供更丰富的 AI 应用。

 

另外在会上,火山引擎宣布与字节跳动国内业务并池。基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,离线业务资源分钟级调度 10 万核 CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠 80%以上。

 

上云,缓解成本焦虑

 

云的弹性,不仅能够帮助企业降低成本,也能大幅降低创新所需要的等待时间。尤其是大模型时代,训练和托管大模型都会带来大量的成本开销,继而带来巨大的价值不确定性。谭待认为,选择上云,是这个问题的最优解。火山引擎在这个方面的优势在于:

 

  • 资源复用,目前字节国内业务拥有过亿核 CPU 资源池、数十 EB 的企业存储。以此为基础,火山通过充分和抖音进行并池和混部,分钟级可调度十万级核 CPU,实现更极致的弹性和性价比。

  • 全面云原生化,字节内部计算体系已经实现超过 95%的容器化,并且基于云原生实现了超大规模存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

  • 坚持全栈自研,包括自研服务器、自研 OS、自研虚拟网络、自研 mGPU 技术等,将部署密度提升超过 500%,为上层应用带来更高资源利用率。

 

本次大会上,火山引擎还公布了全栈自研的新核心组件:火山引擎 DPU。谭待表示,云计算的本质是资源池化和软件定义,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗始终占据 10-20%的额外开销。要想提供更便宜的云服务,必须解决好这部分额外开销,把 CPU 和 GPU 释放到更关键的业务负载里。这就是火山要做 DPU 的原因。

 

据悉,火山引擎 DPU 整体网络性能升级到 5000 万 pps 转发能力,20us 延迟。目前,字节内部已经实现上万台 DPU 的部署,并且将持续提升渗透率。基于自研 DPU 的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的 GPU 实例,相较上一代实例集群性能最高提升 3 倍以上。



谭待认为,未来 3 年内,大规模的算力中心都将形成“CPU+GPU+DPU”的混合算力结构:CPU 负责通用计算,GPU 负责 AI 计算,DPU 负责资源卸载、加速和隔离,提升资源效率。

应对多云挑战

 

会上,谭待分享了一组数据:2022 年,火山引擎对超过 4500 个云消耗大于 100 万的企业进行调研,使用多云架构的企业占比达到 88%,达到历史新高;根据麦肯锡的报告,到 2025 年依然会有 42%的企业保留有私有云;根据 IDC 报告,25 年超过 30%的数据需要边缘实时处理。

 

谭待表示,造成这些现象背后的原因是复杂的,既有业务形态和成本管控的原因,也有数据安全和监管要求的原因。对于企业来说,必须要有能力来解决好这一分布式多云体系带来的挑战。

 

那么,企业如何建设好分布式云?火山引擎认为需要解决好三个问题:一是从单一公共云架构向多公共云架构升级,实现降本增效;二是从传统私有云架构向混合云架构升级,既能保障数据安全也能享受云的弹性;三是基于“算力靠近数据”的理念,形成覆盖 1-40ms 不同延时的架构方案,包括现场边缘、近场边缘和云边缘的体系化架构。

 

谭待表示,火山引擎是中国最懂多云和分布式云的云计算公司。因为字节跳动成立 11 年以来,内部使用过全球几乎每一朵公有云服务和边缘云服务,形成了一整套完整的分布式云管理体系和架构实践。

 

会上,火山引擎正式发布分布式云原生平台,能够支持超过 20 万节点,千万级核的使用场景,可以实现火山引擎云、第三方云、IDC 私有云和边缘云上集群资源与权限的统一管理,实施应用跨集群分发和故障迁移。面向边缘场景,火山引擎正式发布多云 CDN 管理平台。该平台基于字节数百 TB 带宽,十多家 CDN 厂商实操经验构建而成。安全方面,火山引擎发布了全栈多云安全平台。

 

最后,面向公有云和私有云长期并存的场景,火山引擎正式推出混合云平台:veStack。据悉,veStack 采取和火山公有云完全同源的架构设计,搭配火山 DPU 后可以让裸金属资源利用率达到 100%。此外,veStack 也支持多种异构存储协议,支持海光、鲲鹏等国产芯片服务器等。

 

云上如何创新

 

谭待分享了两个现象:一是多模态基础大模型的风起云涌。随着 ChatGPT 、GPT-4 的推出,国内的大模型创新公司也在奋力追赶;二是大模型在垂直行业的加速应用。

 

在 ChatGPT 带动下,大模型成为新的技术热点。有人认为,大模型将成为云厂商弯道超车的机会。对此,谭待表示,大模型还在发展初期,数据安全、内容安全、隐私保护、版权保护等许多问题还需要解决。但可以预见,大模型将带动云上 AI 算力急剧增长,AI 算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会对数据中心、软硬件栈、PaaS 平台带来新的挑战。

 

在大模型及下游应用发展推动下,无论传统企业还是初创企业,对 AI 算力都有迫切需求,企业使用多家云服务将成为常态。同时,各行业有自己高质量的私有语料,大模型不会一家独大,而是会在千行百业生长,形成多模型共生甚至协作的生态。谭待表示,未来将是“多云多模型”的时代。

 

为此,火山引擎发布了面向推荐场景的高速训练引擎,支持 100GB-10TB+超大模型的高效训练。该引擎实现高可用 PS-Worker 架构,支持 PS、Chief、Worker 全方位容错。另外还支持多种模型瘦身技术、多种 GPU 模式,训练加速比 10 倍以上,综合成本可降低 25%~67%。

 

同时,火山引擎对去年发布的机器学习平台进行了升级:一是全新的实验管理-模型效果对比功能:二是支持弹性实例,资源灵活调度;三是针对大模型训练场景进行了全面优化,目前可以支持万卡级别大模型训练场景,微秒级超低延时网络。



需要明确的是,火山引擎自己并不做大模型,主要是服务做大模型的公司,比如 MiniMax、智谱 AI 等。

 

谭待表示,国内很多科技公司投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力。火山引擎要做的就是为大模型客户提供高稳定性和高性价比的 AI 基础设施。

 

谭待介绍,大模型需要大算力才能做出来,此外还需要很好的工程能力,去解决千卡甚至万卡并行的训练问题、网络问题,以及训练过程中如何更早地进行人为干预、观测。这些非常依赖机器学习平台。

 

“MiniMax 的训练场景都跑在火山引擎上,我们吸引它的点,除了算力供给外,最重要的就是通过机器学习帮它解决了很多工程上的问题,让它的资源更好地集中在业务上,即模型训练、分析和提效上等。”谭待表示,“所以对于火山引擎来说,除了算力供给,另外一方面就是云原生机器学习平台。”

 

MiniMax 是目前国内少数已经推出自研大模型产品的 AI 技术公司,拥有文本、视觉、声音三种通用大模型引擎能力。据 MiniMax 联合创始人杨斌介绍,MiniMax 与火山引擎合作建立了超大规模实验平台,实现千卡级常态化训练;超大规模推理平台有万卡级算力池,支撑单日过亿次调用。在火山引擎的云上,MiniMax 大模型业务实现快速突破。

 

谭待透露,国内大模型领域,七成以上已是火山引擎客户。

 

机器学习做智能化

 

在杨震原看来,机器学习很重要的一点,是把问题数字化。数字化可以让这个问题可以定量评估。当问题可以定量评估的时候,接下来就可以智能化,进一步用机器学习的方法来优化。

 

但用机器学习做智能化会主要面临两个问题:复杂和贵。复杂是因为机器学习软件栈很深,有 PyTorch、TensorFlow 等很多平台,也涉及到框架、操作系统,还有底层的硬件等,每个环节都要做对、做好。贵则体现在人力、数据、硬件等的昂贵上。

 

字节跳动副总裁杨震原认为,机器学习做得好不好可以用下面的三角形来表示,其中最重要的是算法。算法在效果上做到领先就能对业务产生很大的价值。而支撑算法效果需求的有两件事:一是硬件 ROI,另一个是人力 ROI。

 


硬件 ROI 指的是单位模型的成本,人力 ROI 是指招一个厉害的算法工程师进来,他能否发挥最大潜能,主要看系统能否支持他足够容易、足够敏捷地去尝试新的想法。“业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。”杨震原表示,火山引擎通过潮汐、混部等方式,来实现资源的高利用率和极低成本。

 

以抖音推荐系统为例,工程师用 15 个月的样本训练某个模型,5 小时就能完成训练,成本只有 5000 元。据悉,火爆全网的抖音“AI 绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。

 

杨震原表示,火山引擎的机器学习平台是内外统一的,火山引擎客户和抖音会用使用同样的平台。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-20 11:413052

评论

发布
暂无评论
发现更多内容

产品经理第四周总结

克比

日记 2021年2月10日(周三)

Changing Lin

2月春节不断更

如何在不辞职的情况下,改变不喜欢的工作?

熊斌

2月春节不断更

抽奖小程序-活动发布用例分析及流程图

思亭

0期产品训练营第四周作业-学情周报用例

skylar

产品经理第 0 期训练营第四周作业提交

Krystal

产品经理训练营-第四周作业

玖玖

产品经理训练营第四章作业(一)

猫。

抽奖助手小程序 发起抽奖用例

Shine

产品

产品经理训练营 - 第四次作业

Jophie

产品经理训练营

「产品经理训练营」作业 04:知识星球加入星球用例

狷介

产品经理训练营

第四次作业及总结

青葵

学习

UC01 用户 购买课程

克比

1分钟内的Linux性能分析法

Gopher指北

Linux 后端

产品经理训练营第四周作业

happy-黑皮

产品经理训练营

用例

z

作业

云随心

作业

漂亮壁纸

小马哥

七日更 二月春节不断更 壁纸

第四周学习心得

Trigger

极客时间 产品经理训练营

并发编程系列:关于线程中断

程序员架构进阶

Java 并发 28天写作 2月春节不断更

手把手教你玩华为eNSP模拟器

第四周作业

Geek_72d5ab

第四周作业-核销优惠券用例

隋泽

产品经理训练营

0期产品训练营-第4周小结

skylar

百度闯关,照见互联网巨头造芯之路

脑极体

产品训练营-第四次作业

Geek_娴子

ZEGO全新语音聊天室方案,2小时复刻 Clubhouse

ZEGO即构

极客大学·产品训练营·第三章作业(第四周)

二大爷

极客大学 极客大学产品经理训练营 产品训练营

产品经理训练营第四章作业(一)

新盛

【LeetCode】字符串的排列题解

Albert

算法 LeetCode 2月春节不断更

产品经理训练营笔记 - 业务流程与产品文档(二)

.nil?

产品经理训练营

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持_语言 & 开发_褚杏娟_InfoQ精选文章