写点什么

云上「算力浪费」,正在掣肘企业应用落地

  • 2024-12-26
    北京
  • 本文字数:2892 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:47
云上「算力浪费」,正在掣肘企业应用落地

投入算力,真的能换来利润吗?这是每个想“入局”大模型的企业都会思考的问题。


人工智能行业一直困于成本,无论从模型训练到推理,都充满了“烧钱”的气息。无法避免的高昂算力,成为企业入局大模型的“铁门槛”。


据多方数据统计,训练 GPT-4 这样的前沿模型系统,其成本预估在 7800 万美元;而在推理层面,企业私有化部署大模型,成本仍高达数百万元;基于开源大模型进行微调+RAG 策略尽管更便宜,但安全性难以保障,更别提在后续使用中还会涉及的持续算力消耗。


而与高昂算力同时存在的,是算力利用率极低的行业现状。


据相关消息,OpenAI 在 GPT-4 的训练中,其算力利用率只有 32%至 36%,大模型训练的算力有效利用率不足 50%。这是因为在训练周期内,GPU 卡并不能随时实现高资源利用,在一些训练任务比较小的阶段,还会有资源闲置状态。而在模型部署阶段,由于业务波动和需求预测不准确,许多服务器往往处于待机或低负载状态。算力浪费现象极为严重。


困局背后,是云计算基础设施建设存在的滞后性:传统的云基础设施,并不完全适配当今大模型训练及推理的需求。所以过去两年,主流云计算服务商一直将产品与算力更新当做重点,这种“错位”导致了相当量级的资源浪费,以及成本的增加。


一方面,训练 AI 模型所需的算力,还正在以高达每年 10 倍的速度增长;另一方面,云计算的发展速度不仅受制于摩尔定律,还牵扯到从底层到顶层的整个服务架构,并不能靠简单地堆砌 GPU 实现。


面对这些冲突,云厂商们试图通过跨界合作来完成创新,其中火山引擎与英特尔的联手便是一个典型案例。


英特尔握手火山引擎,终于拿出了“杀手锏”


英特尔作为 x86 的王者,多年来深耕通用处理器,几乎从底层定义了 PC 时代。在人工智能热潮来临之前,英特尔预见了传统单一计算架构已达到性能和功耗的瓶颈,而将异构计算作为应对 AI 时代算力挑战的关键战略。英特尔提出的 XPU 战略,便是希望整合 CPU、GPU、ASIC、FPGA 等领域的产品线,使 CPU 中不同核心负责不同工作负载,让计算架构能更有效地应对场景化数据。


在 2024 火山引擎 FORCE 原动力大会•冬上,英特尔介绍了至强® 6 性能核处理器,并携手火山引擎共同发布了搭载该处理器的火山引擎第四代通用计算实例 g4il,希望通过优化云服务的底层架构,帮助用户应对多样化的需求。


对比上一代,通用计算实例 g4il 搭载英特尔® 至强® 6 性能核处理器(代号 Granite Rapids,简称 GNR),计算密度大幅提升;同时,得益于采用了双单路架构,使得“爆炸半径”大幅降低,有力保障稳定性;此外,基于火山引擎自研 DPU 板卡和 Hypervisor 等组件,g4il 也实现了软硬一体的深度协同。


g4il 支持多种云盘类型,包括高效型云盘、极速型 SSD PL0,极速型 SSD FlexPL,吞吐型 SSD TL0;在网络层面,g4il 支持采用 jumbo frame(巨型帧)来进行大包传输,可有效减少网络传输耗时和提升网络效率。


为应对 AI 业务的固有特点,g4il 也全面提升了 I/O 能力,整机网络带宽提升 100%,整机存储带宽提升 100%,整机 IOPS 提升 66%,整机 PPS 提升 38%;在 CPU 方面,内存通道为 12CH,支持高达 6400 MT/s 的 DDR5 内存,L3 缓存提升了 60%。此外,g4il 在 AMX int8 和 bf16 的基础上新增支持 fp16 指令集,可以满足更多精度的 AI 运算需求,相比 AVX512 有多达 5 倍算力提升。


综合来看,通用计算实例 g4il 能以更为流畅、高效、稳定的计算体验,有效帮助用户应对 AI 场景及传统复杂运算作业,尤其在数据库应用、Web 应用和视频转码等场景下,可实现最高 20%的性能提升。


据英特尔提供数据显示,镜像平台提供开源大模型在 g4il 实例验证,以及大模型与 embedding、向量数据库等组合验证,并为 g4il 实例提供企业知识库检索、视频检索分析、数据分析助手、智能体/工作流编排等一键式部署方案,一杯咖啡的时间可以让一个知识库助手应用就绪。


用户无需额外购买高性能计算产品,仅需极低的成本即可上手大模型,并且能够轻松部署到多个使用场景中,大幅降低了 AI 开发的门槛。



此外,为了进一步提供高性价比弹性算力,火山引擎基于与字节跳动内外复用的百万核潮汐资源池,推出了业界首创的“弹性预约实例”售卖模式。这种模式支持免费提前预约,到点资源自动交付,在为弹性需求提供资源确定性保障的同时,相较于常规的按量计费实例,还能够节省 33%以上的算力成本。从内外并池到机型统一,这背后也有英特尔® 至强® 系列处理器的强劲助力。



英特尔全方位赋能,做新时代“幕后功臣”


英特尔针对 AI 模型训练、推理等应用场景,以及在硬件增强的安全特性方面,推出了很多自研技术,并内置于英特尔® 至强® 6 中,如英特尔® 高级矩阵扩展(英特尔® AMX)和英特尔® 信任域扩展(英特尔® TDX)。


英特尔® AMX 通过在 CPU 中加入专门用于矩阵运算的硬件单元,以增强对大模型的支持。包括了一组二维寄存器(称为 TILES),以及一个能够对这些寄存器进行操作的加速器 TMUL(Tile Matrix Multiply Unit)。TILES 寄存器可以存储二维矩阵数据,并且 TMUL 负责执行高效的矩阵乘法运算,可以在单个时钟周期内完成大量 INT8、BF16、FP16 精度的操作,极大地提升了每秒浮点运算次数。在文生图和 LLM 场景下,火山引擎成功验证了基于 AMX 的火山引擎通用云服务器在 AI 推理性能上的显著提升。


生成式 AI 兴起后,安全问题再次回归大众视野,用户担心 Gen AI 对骇客行为的升级,英特尔® 信任域扩展(英特尔® TDX)对用户的数据和应用提供端到端的保护。其核心在于创建一个称为受信任域(TD, Trusted Domain)的环境,这是一个被硬件严格隔离的虚拟机实例。


与传统的虚拟机(VM)不同,TD 不仅能够抵御来自同一物理主机上其他 VM 或应用程序的攻击,还可以防止虚拟机管理器(VMM)/虚拟机管理程序以及平台上的任何非 TD 软件对其造成的影响。这意味着即使云服务商本身也无法访问 TD 内部的数据,极大地提升了隐私性和安全性。


TDX 的另外一个特性是提供远程认证功能,使工作负载所有者能够验证服务器的可信状态,增强对虚拟化环境的信任。


这些技术特点意味着,在云多租户的环境中,TDX 可以保障不同租户之间严格隔离,简化安全部署。


在 AI 推理方面,英特尔还推出了基于 GNR+MRDIMM 内存优化的全新方案,这种方案是火山引擎对英特尔® 至强® 6 性能核处理器进行了深度调优,带来更大内存带宽和更强 CPU 算力,并在测试中显示,可以大幅提升 LLM 性能。


至强® 6 性能核处理器采用 Intel 3 制程工艺,其特点在于采用单元架构,拥有独立的 IO 单元和内核单元。这种设计使其能够与 GPU 或专用的 AI 加速器高效协作,真正发挥出作为数据中心的“指挥官”,也就是就是机头(head-node)CPU 或主控 CPU 的优势,对比上一代处理器,至强® 6 可以提供更强的 CPU 算力。


MRDIMM 是通过使用高速多路复用器或数据缓冲区,同时读取内存 Bank 并将数据传输到 CPU。更大的内存带宽,使它特别适用于人工智能、高性能计算和实时分析等应用场景。


纵观 2024 火山引擎 FORCE 原动力大会•冬的这次发布,从通用计算实例 g4il 降低 AI 应用的开发门槛,到“弹性预约实例”售卖模式降低算力成本。面对当下全新的算力需求,英特尔的至强® 6 性能核处理,AMX、TDX 等内置加速器、以及目前“独占”的 MRDIMM 技术,正在为大模型落地带来强力的支持。


作为头部芯片厂商,英特尔正在上浮逐步进入业务场景,赋能千行百业实现业务革新。

2024-12-26 16:2010766

评论

发布
暂无评论
发现更多内容

变易世界,简易战略,不易华为

脑极体

Python OpenCV 边缘滤波保留(EPF)

梦想橡皮擦

Python OpenCV 4月日更

nginx.conf核心配置

马里奥

nginx Configuration 配置

哭了!从腾讯辞职后找不到工作,投了20多家简历,却只面过一家

Java架构师迁哥

《采访融云CTO杨攀:融云七年发展史》(采访提纲)

后台技术汇

调查采访能力考核

第二周作业

Geek_2e7dd7

架构实战营

转正还是离职?这是一个问题么?

escray

面试 面经 4月日更

边缘计算应用的价值

云计算

逐行解读Spring- 没人比我更懂循环依赖

学Java关注我

Java 编程 架构 编程语言 技术宅

应用宝SDK接入记录

风翱

sdk 4月日更 应用宝

洛谷 || 混合牛奶 Mixing Milk(贪心算法)

Bob

算法 刷题 4月日更

微服务网关的一点思考

程序员架构进阶

架构 自我提升 api 网关 28天写作 4月日更

签约作者可视化

IT蜗壳-Tango

4月日更

Spark数据倾斜解决方案实战(三)

小舰

4月日更

基于拉链式和线性探测式散列表实现Map

Silently9527

Java hashmap 线性探测 拉链式散列表 散列表

荣耀,单刷苹果大boss

脑极体

领域驱动设计(DDD):领域和子域

xcbeyond

领域驱动设计 DDD 4月日更

线上服务 CPU 100%?一键定位 so easy!

Java小咖秀

性能 cpu 负载 线上排障 线上问题

方寸之间,书写天地

小天同学

个人总结 4月日更 1 周年盛典 我和写作平台的故事 InfoQ 写作平台 1 周年

产品 0 期 - 第八周作业

vipyinzhiwei

Java线程讲解,这次没有人学不会了吧!!!

霖~

计算机原理学习笔记 Day3

穿过生命散发芬芳

计算机原理 4月日更

清理SpringBoot应用无用的metrics指标

远鹏

Java springboot metrics micrometer

Zabbix 产品周期

耳东@Erdong

zabbix 4月日更 lifecycle

css中的动画效果

赫鲁小夫

4月日更

重读《重构2》- 提取函数

顿晓

4月日更 提取函数

为什么我们的生活越来越快?

石云升

读书笔记 28天写作 4月日更

【基金系列】10年理财规划师经验分享:不想当韭菜就看一下这些内容

小Q

学习 基金会 理财 基金

新特性巨量来袭,MindSpore开源一周年实力“狂欢”

华为云开发者联盟

开源 modelarts mindspore 数据预处理加速 分子模拟库

lombok编译报错:java: 找不到符号

李印

IntelliJ IDEA lombok

架構設計訓練營作業 2

海罗沃德

架构实战营

云上「算力浪费」,正在掣肘企业应用落地_英特尔_雷雨亭_InfoQ精选文章