10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

百度智能云旗舰模型一年降价超 90%,万卡集群有效训练时长达 99.5%

  • 2024-09-25
    北京
  • 本文字数:3225 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:39
百度智能云旗舰模型一年降价超90%,万卡集群有效训练时长达99.5%

9 月 25 日,百度智能云宣布分别针对算力、模型、AI 应用,全面升级了百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施,并升级代码助手、智能客服、数字人三大 AI 原生应用产品。

 

“目前在千帆大模型平台上,文心大模型日均调用量超过 7 亿次,累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。过去一年,文心旗舰大模型降价幅度超过 90%,主力模型全面免费,最大限度降低了企业创新试错的成本。”百度集团执行副总裁、百度智能云事业群总裁沈抖说道。

 

升级百舸 4.0:模型训练有效时长达 99.5%,可高效管理十万卡集群

 

“如今,整个云业务的增长正在从传统的云计算向所谓的 GPU 云以及异构算力进行转换。”百度副总裁谢广军在接受媒体采访时说道。

 

沈抖介绍称,GPU 集群有三个特征:极致规模、极致高密和极致互联。这些“极致”带来了两个严峻的挑战:第一,巨额的建设、运营成本。建一个万卡集群,单是 GPU 的采购成本就高达几十亿;第二,运维的复杂性急剧增加。硬件不可避免地会出故障,而规模越大出故障的概率就越高,比如 Meta 训练 llama3 的时候,用了 1.6 万张 GPU 卡的集群,平均每 3 小时就会出一次故障。在这些故障中,绝大多数是由 GPU 引起的。

 

“过去一年,我们感受到客户的模型训练需求猛增,需要的集群规模也越来越大。与此同时,大家对模型推理成本的持续下降的预期也越来越高。这些都对 GPU 管理的稳定性和有效性提出了更高要求。”沈抖表示,为此百度智能云大幅升级并发布百舸 AI 异构计算平台 4.0。

 

最下面是资源层,支持异构芯片管理、高速互联、高效存储;组件层解决的是大规模集群稳定和性能的问题;加速层是面向客户大模型训练、推理的需求设计;最上面的工具层是一套管理界面。

 

 

百度百舸 AI 异构计算平台 4.0

 

在集群创建阶段,企业通常需要进行大量复杂、琐碎的算力配置和调试工作。沈抖介绍道,百舸 4.0 预置了主流的大模型训练工具,能够实现工具层面的秒级部署,并将万卡集群运行准备时间从几周缩减至 1 小时,极大地提升部署效率,缩短业务上线周期。

 

在开发实验阶段,企业需要针对业务目标对不同架构、参数的模型进行多次测试,进而制定最佳模型训练策略,保障后续训练的性能和效果。百舸 4.0 全新升级的可观测大盘,能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测,提供直观决策依据。

 

在模型训练阶段,稳定和高效是衡量 GPU 集群水平的“金指标”、“硬通货”。一张 GPU 出现故障就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。为此,百舸 4.0 支持自动筛查集群状态,并基于对 GPU 故障的精准预测,及时转移工作负载,降低故障发生频次。此外,百舸独有的故障秒级感知定位、Flash Checkpoint 模型任务状态回滚等技术,能够大幅减少集群故障处置时间,实现接近无损的集群容错。

 

据介绍,目前百舸在万卡集群上实现了有效训练时长占比 99.5%以上,此外,据悉百舸 4.0 通过在集群设计、任务调度、并行策略、显存优化等一系列创新,大幅提升了集群的模型训练效率,整体性能相比业界平均水平提升高达 30%。

 

在模型推理环节,百舸则通过架构分离、KV Cache、负载分配等一系列加速方法,实现了模型推理的降本提效,尤其在长文本推理方面,推理效率提升超过 1 倍。

 

沈抖认为,大模型的 Scaling Law 将在一段时间内持续有效,很快就会有更多的十万卡集群出现,但是管理十万卡的难度与管理万卡有着天壤之别。

 

首先,在物理空间方面,十万卡集群需要占据大概 10 万平方米空间,相当于 14 个标准足球场的面积;在能耗方面,每天则要消耗大约 300 万千瓦时的电力,相当于北京市东城区一天的居民用电量。这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。此外,十万卡集群中的 GPU 故障将会非常频繁,有效训练时长占也将迎来新的挑战。

 

为此,百舸 4.0 已经构建了十万卡级别的超大规模无拥塞 HPN 高性能网络、10ms 级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸 4.0 正是为部署十万卡大规模集群而设计的。今天的百舸 4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说道。

 

发布千帆 3.0:三大服务全面升级,一句话即可生成企业级应用

 

“模型开发尤其是大模型开发,在 toB 市场上的需求比直接调用的需求来得晚。”谢广军表示,“随着应用本身的深入落地,也会越来越多,越来越广。”

 

为了满足企业客户对模型调用、模型开发、应用开发三方面的需求,百度智能云发布千帆大模型平台 3.0。根据介绍,升级后的千帆平台可以调用包括文心系列大模型在内的近百个国内外大模型,还支持调用语音、视觉等各种传统的小模型。同时在价格方面,文心旗舰大模型过去一年降价幅度超过 90%、主力模型全面免费。

 

 

文心大模型家族全景图

 

对于需要定制、微调专属模型的用户,千帆 3.0 提供了一系列大模型工具链,支持 CV、NLP、语音等传统模型的开发,并实现数据、模型、算力等资源的统一纳管和调度。模型投入使用后,千帆平台还支持企业将应用中产生的数据,经过采样评估、人工标注、对齐或微调等方式反馈给模型,形成数据飞轮,持续优化模型效果。

 

 

千帆平台大模型工具链

 

在应用开发方面,针对企业落地大模型的高频应用场景,千帆 3.0 从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行了全面升级;针对企业级 Agent 的开发,千帆 3.0 增加了业务自主编排、人工编排、知识注入、记忆能力以及百度搜索等 80 多个官方组件支持。

 

工具平台的不断完善,也促进了过去一年大模型产业落地的爆发式增长。据悉,目前在千帆平台上,文心大模型日均调用量超过 7 亿次,千帆平台累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。

 

此外,千帆行业增强版提供了体系化的工具和组件,支持行业客户、合作伙伴在千帆通用底座上不断添加行业特色,从而更方便地开发适合自己的行业应用。目前,千帆平台上已经沉淀了包括制造、能源、交通,政务、金融、汽车、教育、互联网在内的八大行业解决方案。

 

代码助手、智能客服、数字人全面升级

 

随着大模型产业落地逐渐走向深水区,AI 原生应用也将迎来爆发式增长,为了满足企业直接选购成熟 AI 应用的需求,百度智能云面向数字人、智能客服、代码提效三大领域,升级了三大 AI 原生应用产品。

 

基于文心大模型重构的 AI 原生智能客服应用“客悦”,在用户复杂意图理解、多模态信息交流等方面实现了大幅提升,让智能客服变得更聪明、更拟人。据介绍,“问题自助解决率”是智能客服领域最关键的考核指标,当前业内平均水平是 80%,升级后的客悦将这一指标提升至 92%,实现业界领先。目前,客悦已累计帮助企业客户服务超过 1.5 亿人次,交互超过 5 亿次。

 


基于大模型能力,新升级的曦灵数字人 4.0 支持根据文字快速生成不同妆造、不同行业特色的 3D 数字人形象和视频。本次大会期间,曦灵平台宣布:将 3D 超写实数字人的价格从万元大幅降价至 199 元,达到业内最低价。

 

曦灵数字人 4.0 全新升级的 4D(3D+时间维度)自动绑定技术和创新模态迁移技术,还解决了传统 2D 数字人动作僵硬的问题,可以实现人物在不同角度、形体、表情的高度一致。

 

 

全新升级的全流程 AI 代码提效工具“文心快码”,聚焦研发全生命周期的业务流,实现了从项目接手到最终交付,全流程编码开发效率与质量的双重提升。

 

文心快码业界首发“企业级代码架构解释”、“企业级代码审查”,两项全新功能。企业级代码架构解释能在项目接手初期,实现工程架构的智能解读,帮工程师快速理解业务逻辑;而企业级代码审查则能传承资深工程师的编码经验,智能辅助程序员查缺补漏。

 


此外,针对市面上通用代码助手缺乏对企业历史代码库的理解的痛点,文心快码全新升级的“企业级代码辅助能力”能够深度理解企业代码库,快速学习企业过往的代码与规范,让生成的代码更贴近企业的要求。

 

目前,文心快码已经服务超过 1 万家企业客户,帮助数百万中国开发者提升编码效率,整体提升研发效率 20%。

2024-09-25 15:577722

评论

发布
暂无评论
发现更多内容

大数据培训如何部署一个健壮的Airflow

小谷哥

学好web前端培训课程方法推荐

小谷哥

研发了 5 年的时序数据库,到底要解决什么问题?

TDengine

数据库 tdengine

Redis进阶之路:深度解析Redis单线程架构,图文并茂不能再清晰了

王小凡

Java redis 程序员 开发

百问百答第49期:极客有约——国内可观测领域SaaS产品的发展前景

博睿数据

可观测性 智能运维 博睿数据 极客有约 中信证券

A tour of gRPC:06 - gRPC client straming 客户端流

BUG侦探

gRPC RPC

安全至上:落地DevSecOps最佳实践你不得不知道的工具

龙智—DevSecOps解决方案

DevOps DevSecOps

我用这一招让团队的开发效率提升了 100%!

Liam

程序员 前端 后端 开发 API

CWE4.8:2022年危害最大的25种软件安全问题

华为云开发者联盟

安全 后端 开发

什么是SVN(Subversion)?

龙智—DevSecOps解决方案

svn 版本控制 版本管理 版本控制软件

开源一夏|数据结构课设:基于字符串模式匹配算法的病毒感染检测问题

是Dream呀

开源

Python 教程之输入输出(2)—— 输入和输出

海拥(haiyong.site)

Python 8月月更

融云「 IM 进阶实战高手课」系列直播上线

融云 RongCloud

IM 连接协议

创新云集技术咖,工赋汇聚实战派:2022工赋开发者峰会

工赋开发者社区

工业 峰会

开源一夏 | Python Web开发(八):后端开发中的增查改删处理

是Dream呀

开源

搭建属于自己的知识库(Wikijs)

开源 wiki 知识库 8月月更

大数据培训班如何选

小谷哥

制胜精细化运营时代 华为应用市场打出内容、场景、商业运营组合拳

极客天地

用 Lunchbox 在 vue3 中创建一个旋转的 3D 地球竟是如此简单

前端修罗场

3D 地球 ThreeJS

电烙铁的基础知识

单宝华

电子技术 8月月更

参加前端培训后程序员能找到工作吗?

小谷哥

全面认识二极管,一篇文章就够了

矜辰所致

ESD二极管 8月月更 二极管 电子设计基础 TVS二极管

开源一夏 | 数据结构课设:图书信息管理--顺序存储和链式存储

是Dream呀

开源

天翼云4.0分布式云赋能千行百业数字化转型

天翼云开发者社区

云存储 云上架构

玩转云端 | 天翼云对象存储ZOS高可用的关键技术揭秘

天翼云开发者社区

云平台 云存储

大数据培训机构大概要花费多少钱

小谷哥

数字孪生园区场景中的坐标知识

ThingJS数字孪生引擎

数字孪生

「全球数字经济大会」登陆 N 世界,融云提供通信云服务支持

融云 RongCloud

isc N世界

不改一行源码,实现 sentinel-dashboard 所有配置支持 apollo 持久化

铁匠

微服务 sentinel 流量控制 sentinel dashboard

KunlunBase 1.0 发布了!

KunlunBase昆仑数据库

国产数据库

百度智能云旗舰模型一年降价超90%,万卡集群有效训练时长达99.5%_AI&大模型_褚杏娟_InfoQ精选文章