2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

云上「算力浪费」,正在掣肘企业应用落地

  • 2024-12-26
    北京
  • 本文字数:2892 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:47
云上「算力浪费」,正在掣肘企业应用落地

投入算力,真的能换来利润吗?这是每个想“入局”大模型的企业都会思考的问题。


人工智能行业一直困于成本,无论从模型训练到推理,都充满了“烧钱”的气息。无法避免的高昂算力,成为企业入局大模型的“铁门槛”。


据多方数据统计,训练 GPT-4 这样的前沿模型系统,其成本预估在 7800 万美元;而在推理层面,企业私有化部署大模型,成本仍高达数百万元;基于开源大模型进行微调+RAG 策略尽管更便宜,但安全性难以保障,更别提在后续使用中还会涉及的持续算力消耗。


而与高昂算力同时存在的,是算力利用率极低的行业现状。


据相关消息,OpenAI 在 GPT-4 的训练中,其算力利用率只有 32%至 36%,大模型训练的算力有效利用率不足 50%。这是因为在训练周期内,GPU 卡并不能随时实现高资源利用,在一些训练任务比较小的阶段,还会有资源闲置状态。而在模型部署阶段,由于业务波动和需求预测不准确,许多服务器往往处于待机或低负载状态。算力浪费现象极为严重。


困局背后,是云计算基础设施建设存在的滞后性:传统的云基础设施,并不完全适配当今大模型训练及推理的需求。所以过去两年,主流云计算服务商一直将产品与算力更新当做重点,这种“错位”导致了相当量级的资源浪费,以及成本的增加。


一方面,训练 AI 模型所需的算力,还正在以高达每年 10 倍的速度增长;另一方面,云计算的发展速度不仅受制于摩尔定律,还牵扯到从底层到顶层的整个服务架构,并不能靠简单地堆砌 GPU 实现。


面对这些冲突,云厂商们试图通过跨界合作来完成创新,其中火山引擎与英特尔的联手便是一个典型案例。


英特尔握手火山引擎,终于拿出了“杀手锏”


英特尔作为 x86 的王者,多年来深耕通用处理器,几乎从底层定义了 PC 时代。在人工智能热潮来临之前,英特尔预见了传统单一计算架构已达到性能和功耗的瓶颈,而将异构计算作为应对 AI 时代算力挑战的关键战略。英特尔提出的 XPU 战略,便是希望整合 CPU、GPU、ASIC、FPGA 等领域的产品线,使 CPU 中不同核心负责不同工作负载,让计算架构能更有效地应对场景化数据。


在 2024 火山引擎 FORCE 原动力大会•冬上,英特尔介绍了至强® 6 性能核处理器,并携手火山引擎共同发布了搭载该处理器的火山引擎第四代通用计算实例 g4il,希望通过优化云服务的底层架构,帮助用户应对多样化的需求。


对比上一代,通用计算实例 g4il 搭载英特尔® 至强® 6 性能核处理器(代号 Granite Rapids,简称 GNR),计算密度大幅提升;同时,得益于采用了双单路架构,使得“爆炸半径”大幅降低,有力保障稳定性;此外,基于火山引擎自研 DPU 板卡和 Hypervisor 等组件,g4il 也实现了软硬一体的深度协同。


g4il 支持多种云盘类型,包括高效型云盘、极速型 SSD PL0,极速型 SSD FlexPL,吞吐型 SSD TL0;在网络层面,g4il 支持采用 jumbo frame(巨型帧)来进行大包传输,可有效减少网络传输耗时和提升网络效率。


为应对 AI 业务的固有特点,g4il 也全面提升了 I/O 能力,整机网络带宽提升 100%,整机存储带宽提升 100%,整机 IOPS 提升 66%,整机 PPS 提升 38%;在 CPU 方面,内存通道为 12CH,支持高达 6400 MT/s 的 DDR5 内存,L3 缓存提升了 60%。此外,g4il 在 AMX int8 和 bf16 的基础上新增支持 fp16 指令集,可以满足更多精度的 AI 运算需求,相比 AVX512 有多达 5 倍算力提升。


综合来看,通用计算实例 g4il 能以更为流畅、高效、稳定的计算体验,有效帮助用户应对 AI 场景及传统复杂运算作业,尤其在数据库应用、Web 应用和视频转码等场景下,可实现最高 20%的性能提升。


据英特尔提供数据显示,镜像平台提供开源大模型在 g4il 实例验证,以及大模型与 embedding、向量数据库等组合验证,并为 g4il 实例提供企业知识库检索、视频检索分析、数据分析助手、智能体/工作流编排等一键式部署方案,一杯咖啡的时间可以让一个知识库助手应用就绪。


用户无需额外购买高性能计算产品,仅需极低的成本即可上手大模型,并且能够轻松部署到多个使用场景中,大幅降低了 AI 开发的门槛。



此外,为了进一步提供高性价比弹性算力,火山引擎基于与字节跳动内外复用的百万核潮汐资源池,推出了业界首创的“弹性预约实例”售卖模式。这种模式支持免费提前预约,到点资源自动交付,在为弹性需求提供资源确定性保障的同时,相较于常规的按量计费实例,还能够节省 33%以上的算力成本。从内外并池到机型统一,这背后也有英特尔® 至强® 系列处理器的强劲助力。



英特尔全方位赋能,做新时代“幕后功臣”


英特尔针对 AI 模型训练、推理等应用场景,以及在硬件增强的安全特性方面,推出了很多自研技术,并内置于英特尔® 至强® 6 中,如英特尔® 高级矩阵扩展(英特尔® AMX)和英特尔® 信任域扩展(英特尔® TDX)。


英特尔® AMX 通过在 CPU 中加入专门用于矩阵运算的硬件单元,以增强对大模型的支持。包括了一组二维寄存器(称为 TILES),以及一个能够对这些寄存器进行操作的加速器 TMUL(Tile Matrix Multiply Unit)。TILES 寄存器可以存储二维矩阵数据,并且 TMUL 负责执行高效的矩阵乘法运算,可以在单个时钟周期内完成大量 INT8、BF16、FP16 精度的操作,极大地提升了每秒浮点运算次数。在文生图和 LLM 场景下,火山引擎成功验证了基于 AMX 的火山引擎通用云服务器在 AI 推理性能上的显著提升。


生成式 AI 兴起后,安全问题再次回归大众视野,用户担心 Gen AI 对骇客行为的升级,英特尔® 信任域扩展(英特尔® TDX)对用户的数据和应用提供端到端的保护。其核心在于创建一个称为受信任域(TD, Trusted Domain)的环境,这是一个被硬件严格隔离的虚拟机实例。


与传统的虚拟机(VM)不同,TD 不仅能够抵御来自同一物理主机上其他 VM 或应用程序的攻击,还可以防止虚拟机管理器(VMM)/虚拟机管理程序以及平台上的任何非 TD 软件对其造成的影响。这意味着即使云服务商本身也无法访问 TD 内部的数据,极大地提升了隐私性和安全性。


TDX 的另外一个特性是提供远程认证功能,使工作负载所有者能够验证服务器的可信状态,增强对虚拟化环境的信任。


这些技术特点意味着,在云多租户的环境中,TDX 可以保障不同租户之间严格隔离,简化安全部署。


在 AI 推理方面,英特尔还推出了基于 GNR+MRDIMM 内存优化的全新方案,这种方案是火山引擎对英特尔® 至强® 6 性能核处理器进行了深度调优,带来更大内存带宽和更强 CPU 算力,并在测试中显示,可以大幅提升 LLM 性能。


至强® 6 性能核处理器采用 Intel 3 制程工艺,其特点在于采用单元架构,拥有独立的 IO 单元和内核单元。这种设计使其能够与 GPU 或专用的 AI 加速器高效协作,真正发挥出作为数据中心的“指挥官”,也就是就是机头(head-node)CPU 或主控 CPU 的优势,对比上一代处理器,至强® 6 可以提供更强的 CPU 算力。


MRDIMM 是通过使用高速多路复用器或数据缓冲区,同时读取内存 Bank 并将数据传输到 CPU。更大的内存带宽,使它特别适用于人工智能、高性能计算和实时分析等应用场景。


纵观 2024 火山引擎 FORCE 原动力大会•冬的这次发布,从通用计算实例 g4il 降低 AI 应用的开发门槛,到“弹性预约实例”售卖模式降低算力成本。面对当下全新的算力需求,英特尔的至强® 6 性能核处理,AMX、TDX 等内置加速器、以及目前“独占”的 MRDIMM 技术,正在为大模型落地带来强力的支持。


作为头部芯片厂商,英特尔正在上浮逐步进入业务场景,赋能千行百业实现业务革新。

2024-12-26 16:2011757

评论

发布
暂无评论
发现更多内容

基于Netty,徒手撸IM(一):IM系统设计篇

JackJiang

网络编程 Netty 即时通讯 im开发

多模输入事件分发机制详解

OpenHarmony开发者

Open Harmony

你可能不知道,我是如何将一个老系统的kafka消费者服务的性能提升近百倍的

Java全栈架构师

Java kafka 程序员 面试 架构设计

linux实战清理挖矿病毒kthreaddi

入门小站

Linux

python小知识-python泛函数

AIWeker

Python python小知识 7月月更

一文掌握数仓中auto analyze的使用

华为云开发者联盟

数据库 sql 后端 analyze

解密函数计算异步任务能力之「任务的状态及生命周期管理」

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

能源行业的数字化“新”运维

博睿数据

AIOPS 智能运维 博睿数据 能源行业

DeFi生态NFT流动性挖矿系统开发搭建

薇電13242772558

NFT DeFi流动性挖矿

在线文本行固定长度填充工具

入门小站

工具

华为nova 10系列支持应用安全检测功能 筑牢手机安全防火墙

科技汇

扩展你的KUBECTL功能

mengzyou

Kubernetes DevOps kubectl krew

智洋创新与华为签署合作协议,共同推进昇腾AI产业持续发展

极客天地

激进技术派 vs 项目保守派的微服务架构之争

BoCloud博云

微服务 微服务架构 云原生 istio 服务网格

英特尔集成光电研究最新进展推动共封装光学和光互连技术进步

科技之家

使用 MyBatis 操作 Nebula Graph 的实践

NebulaGraph

mybatis 图数据库 Nebula Graph

NBA赛事直播超清画质背后:阿里云视频云「窄带高清2.0」技术深度解读

阿里云CloudImagine

音视频 直播 视频编码

“只跑一趟”,小区装维任务主动推荐探索

鲸品堂

运维

DevEco Device Tool 3.0 Release带来5大能力升级,让智能设备开发更高效

HarmonyOS开发者

HarmonyOS

LeaRun.Java快速开发平台 高效代码自动化生成

力软低代码开发平台

在线SQL转Excel(xls/xlsx)工具

入门小站

工具

CANN算子:利用迭代器高效实现Tensor数据切割分块处理

华为云开发者联盟

人工智能 算子 迭代器

托管式服务网络:云原生时代的应用体系架构进化

阿里巴巴云原生

阿里云 云原生 服务网格

赋能数字经济 福昕软件出席金砖国家可持续发展高层论坛

联营汇聚

整理混乱的头文件,我用include what you use

华为云开发者联盟

c++ 开发 C语言 技能

联想首次详解绿色智城数字孪生平台 破解城市双碳升级难点

科技大数据

上线首月,这家露营地游客好评率高达99.9%!他是怎么做到的?

天天预约

小程序 SaaS 线上预约 预约工具 露营

实战模拟│JWT 登录认证

经验分享 JWT 开发语言 7月月更 跨域认证

应用实践 | 蜀海供应链基于 Apache Doris 的数据中台建设

SelectDB

数据库 数据中台 Apaache Doris

字节跳动Dev Better技术沙龙成功举办,携手华泰分享Web研发效能提升经验

字节跳动终端技术

字节跳动 前端

Nebula Importer 数据导入实践

NebulaGraph

图数据库 数据导入 Nebula Graph

云上「算力浪费」,正在掣肘企业应用落地_英特尔_雷雨亭_InfoQ精选文章