“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

集群算力提升 3 倍,腾讯云发布新一代高性能计算集群

  • 2023-04-16
    北京
  • 本文字数:1892 字

    阅读完需:约 6 分钟

集群算力提升3倍,腾讯云发布新一代高性能计算集群

4 月 14 日,腾讯云正式发布面向大模型训练的新一代 HCC(High-Performance Computing Cluster)高性能计算集群。该集群采用最新一代腾讯云星星海自研服务器,搭载了 NVIDIA H800 Tensor Core GPU,并提供业界目前最高的 3.2T 超高互联带宽。

 

实测结果显示,腾讯云新一代集群的算力性能较前代提升高达 3 倍。

 

去年 10 月,腾讯完成首个万亿参数的 AI 大模型——混元 NLP 大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训练时间将进一步缩短至 4 天。

 

大模型进入万亿参数时代,对算力的需求陡增。在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

 

计算层面,服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单 GPU 卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。针对大模型训练场景,腾讯云星星海服务器采用 6U 超高密度设计,相较行业可支持的上架密度提高 30%;利用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能提升至最强。

 


网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。腾讯自研的星脉网络,为新一代集群带来了业界最高的 3.2T 的超高通信带宽。节点内外统一的 AllReduce 通信带宽,实现网络和算力的最大协同。实测结果显示,搭载同样的 GPU,最新的 3.2T 星脉网络相较 1.6T 网络,能让集群整体算力提升 20%。




基于多轨道聚合的无阻塞网络架构、主动拥塞控制和定制加速通信库,腾讯云能提供业界领先的集群构建能力,支持单集群高达十万卡级别的组网规模。在超大集群场景下,仍然能保持优秀的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩展。

 

同时,腾讯自研高性能集合通信库 TCCL,基于星脉网络硬件平台深度优化,在全局路径规划、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。相对业界开源集合通信库,为大模型训练优化 40%负载性能,消除多个网络原因导致训练中断问题。

 

存储层面,训练场景下,几千台计算节点会同时读取一批数据集,需要尽可能缩短数据集的加载时长。新一代集群,引入了腾讯云最新自研存储架构,支持不同场景下对存储的需求。

 

COS+GooseFS 对象存储方案,提供多层缓存加速,大幅提升端到端的数据读取性能;将公开数据集、训练数据、模型结果统一存储到对象存储 COS 中,实现数据统一存储和高效流转。同时,GooseFS 按需将热数据缓存到 GPU 内存和本地盘中,利用数据本地性提供高性能访问。

 


CFS Turbo 高性能并行文件存储方案,采取多级缓存加速,基于全分布式架构,提供 100GB/s 带宽、1000 万 IOPS 的极致性能。并通过持久化客户端缓存技术,将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统构成统一命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。同时,通过智能分层技术,自动对冷热数据分层,节省 80%的存储成本,提供极致的性价比。

 


底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的 TACO Train 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

 

腾讯混元大模型背后的训练框架 AngelPTM,也已通过腾讯云对外提供服务,帮助企业加速大模型落地。目前,腾讯混元 AI 大模型已经覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。

 

在腾讯云上,企业基于 TI 平台的大模型能力和工具箱,可结合产业场景数据进行精调训练,提升生产效率,快速创建和部署 AI 应用。

 

此前,腾讯多款自研芯片已经量产。其中,用于 AI 推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。其中,紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与 CPU 握手等待时间。目前,紫霄已经在腾讯头部业务规模部署,提供高达 3 倍的计算加速性能,和超过 45%的整体成本节省。

 

目前,腾讯云的分布式云原生调度总规模超过 1.5 亿核,并提供 16 EFLOPS(每秒 1600 亿亿次浮点运算)的智算算力。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

 

以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向 AIGC 的高性能智算网络,持续加速全社会云上创新。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2023-04-16 12:333456

评论

发布
暂无评论
发现更多内容

学生管理系统的架构文档

卡西毛豆静爸

「架构实战营」

存储新图谱:DNA存储的边界与天地

脑极体

第三个模块作业

achilles

eBPF 完美搭档:连接云原生网络的 Cilium

火山引擎边缘云

边缘计算 ebpf 云原生网络 cllium

十年所学,梦想终至,不负时光 | 《云端架构》新书首推发布,来自极度努力的吕校长

博文视点Broadview

Python 中的数组哪去了?

宇宙之一粟

Python 数组 2月月更

面试突击25:sleep和wait有什么区别?

王磊

java面试

用简单例子带你了解联合索引查询原理及生效规则

华为云开发者联盟

sql 索引 查询 联合索引

UMEM:友盟统计自定义事件多应用一键同步 & 批处理工具

SamgeApp

Docker Vue 友盟助手 友盟自定义事件批处理 友盟统计

Nginx跨域解决配置示例

nginx 跨域

鲲鹏DevKit & BoostKit直播解密:如何“做开发者的开发者”

科技热闻

百度可观测系列 | 采集亿级别指标,Prometheus 集群方案这样设计

百度开发者中心

FIddler+Proxifer工具对windows PC客户端进行抓包

喀拉峻

黑客 网络安全

云原生时代,如何保证容器镜像安全?

极狐GitLab

DevSecOps 镜像安全 极狐GitLab

关于MVVM和MVC,面试看这篇就够了

山河已无恙

mvc 全栈 MVVM 2月月更

好用不卡,这些插件和配置让你的 Webstorm 更牛逼!

前端下午茶

前端 工具 webstorm

Clusterpedia 加持 kubectl,检索多集群资源

Daocloud 道客

云原生 开源项目 K8s 多集群管理

系统学习 TypeScript(二)——开发流程和语法规则

编程三昧

typescript 前端 2月月更

[Python]介绍

謓泽

Python 2月月更

初级工程师建议收藏|企业级APIs安全实践指南

领创集团AdvanceGroup

基于CC2530设计的智能风扇

DS小龙哥

2月月更 智能风扇

盘一盘常见的6种索引失效情况

华为云开发者联盟

MySQL 索引 字符串 查询 索引失效

Pulsar 职位广场 | 腾讯、华为云、虾皮、众安保险、StreamNative 等多个热招岗位

Apache Pulsar

开源 架构 云原生 招聘 Apache Pulsar

超硬核攻略!《2022金融云原生落地实用指南》重磅发布(限时免费下载)

York

工作想法小计(2):2/14 - 2/18

非晓为骁

个人成长

学生管理系统的架构设计

凌波微步

「架构实战营」

人才短缺、成本高昂,制造企业智能化转型路径如何破局?

百度开发者中心

从 generator 的角度看 Rust 异步代码

SOFAStack

rust Generator

CNCF 沙箱项目 OCM Placement 多集群调度指南

阿里巴巴云原生

阿里云 云原生 OCM Placement

『The ShardingSphere Global Echo』Vol.4

SphereEx

数据库 开源 中间件 ShardingSphere SphereEx

数据库读写分离如何保证主从一致性?

蜜糖的代码注释

MySQL 数据库 2月月更

集群算力提升3倍,腾讯云发布新一代高性能计算集群_大数据_Tina_InfoQ精选文章