NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百度百舸 2.0 升级发布:产业智能化升级需要怎样的基础设施?

  • 2022-09-13
    北京
  • 本文字数:2376 字

    阅读完需:约 8 分钟

百度百舸2.0升级发布:产业智能化升级需要怎样的基础设施?

当今企业面临数字化转型和智能化升级的挑战,作为承载了庞大算力的云基础设施,成为企业打破这种挑战的重要支撑。


过去所说的算力,一般都是以 CPU 为主的传统算力。经过数十年发展,已经形成了庞大的市场规模。

随着产业智能化升级的深化,大家再提算力的时候,注意力就会更多的放到以 GPU 等为主的智能算力上来。


在过去几年,智能算力高速增长,已经快占据到算力总量的一半,和传统算力平分秋色。


这给产业智能化提供了充足的算力支持。比如自动驾驶、生物医药、行业大模型、智算中心等行业和领域,走在了智能化升级的前沿。这些行业的快速发展,也将反过来拉动了智能算力规模的高速增长。



算力和产业的相互影响,促进了双方都在快速发展,不断变化。这也说明需要构建新型智能计算基础设施,支持产业智能化的深化。


那智能算力的未来应该是什么样子,才能更好地满足产业智能化升级的需求呢?


百度智能云认为,随着 AI 应用场景更加丰富、超大模型不断的出现、云上 AI 任务的管理复杂性越来越高,芯片多元化、算力规模化、以及云原生化,将成为未来智能算力发展的重点方向。



为了建设 AI 原生的云计算基础设施,我们去年推出了百度百舸·AI 异构计算平台。基于产业智能化和智能算力发展大趋势,我们今年升级发布了 2.0 版本。


百度百舸 2.0 在 AI 计算、AI 存储、AI 容器等模块上,能力进行了增强,功能进行了丰富,同时全新发布 AI 加速套件


AI 加速套件,通过存训推一体化的方式,对数据的读取和查询、训练、推理进行加速,进一步提升 AI 作业速度。



首先我们来看 AI 相关的计算和网络部分。


为了提升集群通信效率,我们全新发布了弹性 RDMA 网卡。相比传统专用的 RDMA 网络,弹性 RDMA 网络和 VPC 网络进行了融合,使得用户的使用成本更低。相比传统的 TCP 网络,弹性 RDMA 的通信延时降低了 2-3 倍。同时,弹性 RDMA 还支持 GPU Direct RDMA,进一步提升 AI 集群训练速度。



百度持续投入 AI 的全栈能力建设,昆仑芯是其中重要的部分。


今天,我昆仑芯二代的云服务器也发布上市,为用户提供多元化的智能算力。昆仑芯二代采用了 XPU-R 架构,支持硬件级别的虚拟化,同时为用户快速地使用昆仑芯二代,我们提供了专属镜像。

针对典型 AI 负载,第二代昆仑芯的性能,相比一代提升了 2-3 倍,平均加速比是业界主流 GPU 的 1.5 倍。



在 AI 存储部分,百度百舸 2.0 进行了全面升级,提升性能的同时降低使用成本。


我们全新发布了并行文件存储 PFS 的裸金属版本,支持 IB 网络,可将计算对数据的访问延迟降低至百 us 级别。


同时,对象存储 BOS 新增了原生层级 namespace,可以将元数据访问速度提升 4 倍以上。


在存储性能大幅度提升的同时,我们通过 Bucketlink 将 PFS 和 BOS 打通。这不仅提升了数据湖的访问性能,同时降低数据存储成本。



在 AI 加速部分,我们推出的存训推一体化加速方案,全面加速了数据湖存储访问、分布式训练和推理效率。


数据湖存储加速 RapidFS,这是一个分布式缓存系统,可以加速数据集访问,训练效率提升 5~10 倍。

分布式训练加速,能有效提升分布式训练的性能,在典型模型场景下吞吐提升 50%~150%。


在模型完成训练进行部署后,通过推理加速,提升 AI 应用的响应速度。在典型模型场景下时延降低 40%~60%。



在 AI 容器部分,百度百舸 2.0 在业界率先推出了双引擎 GPU 容器虚拟化方案,可以满足各类场景的要求,提升 GPU 资源利用率。


这个双引擎 GPU 容器虚拟化方案,包括内核态和用户态两种虚拟化方案。


内核态虚拟方案是我们今年全新发布的,能够为业务提供强隔离环境。


用户态虚拟方案,是百度内部大规模使用了多年的方案,支撑了各类 AI 业务的落地。今年我们对他进行了增强,进一步提升资源利用率。


更详细内容可以参考《双引擎 GPU 容器虚拟化,用户态和内核态的技术解析和实践分享》。



在完成各个模块的升级后,百度百舸 2.0 的优异性能,在测试结果中得到了充分展现。


在今年 6 月 30 日发布的 MLPerf Trainning v2.0 的榜单中,百度百舸和百度飞桨联合提交的 BERT Large 模型 GPU 训练性能结果,在同等 GPU 配置下排名第一,超越了高度定制优化且长期处于榜单领先位置的 NGC PyTorch 框架。


从图中可以看到,百度百舸和百度飞桨的组合方案比其他结果快 5%-11% 不等。



百度百舸在行业智能化升级的深化过程中发挥了重大作用。


百度百舸支持了文心大模型的落地。这是全球最大中文单体模型,2600 亿参数规模。


百度百舸提供了千卡规模、单集群 EFLOPS 级别的算力,配备了 1.6Tbps 的高速网络,提供百万 IOPS 的并行文件存储系统。


通过 AI 容器提供的容错、架构感知等手段,为文心大模型的训练提供了稳定的运行环境,满足长时间周期的业务需要。



在自动驾驶领域,百度百舸为用户提供了软硬一体的智能基础设施。


在高性能的智能基础设施基础上,百度智能云针对自动驾驶算法、通过显存卸载、算子融合、梯度融合等手段,可以将 Transformer 算法训练吞吐提升了 1.5 倍以上,加速了自动驾驶的研发进程。



在生科医疗领域,百度百舸提供高性能生物计算的平台,作为高通量药物发现的引擎,可以满足 EB 级海量数据、千亿级参数的大模型训练,使得蛋白质结构的预测模型的迭代周期,从过去月级别提升至天级别。


其中,高性能网络为大规模的集群训练提供微秒级的通信时延。通过算力统一调度,满足不同场景的算力需求。同时,借助数据湖存储和对象存储之间打通后的能力,为用户降低数据存储成本一半以上。



基于百度百舸的智算中心,能够提供普惠多元的 AI 算力,支持 AI 应用的大规模发展,做到产业的全场景覆盖,推动城市数字经济的高速发展。


最近,百度智能云 - 昆仑芯(盐城)智算中心落地汽车产业重镇盐城,可为盐城周边的智能经济发展提供庞大的 AI 算力和海量的数据处理能力,加速智能化升级。


该智算中心将成为当地科技创新的动力源泉,向长三角区域源源不断地输出最前沿的科研创新成果。



点击视频回放链接,可以查看全部内容。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-09-13 14:052911

评论

发布
暂无评论
发现更多内容

item_search_pro-高级关键字搜索淘宝商品api接口

技术冰糖葫芦

API 文档

鸿蒙系统明年将不再适配安卓

不在线第一只蜗牛

鸿蒙 安卓 HarmonyOS

软件测试/人工智能|利用ChatGPT写一份不一样的简历

霍格沃兹测试开发学社

如何理解低代码开发工具?

树上有只程序猿

低代码 应用开发 JNPF

Oracle实时同步技术

RestCloud

oracle ETL CDC

青椒云云桌面系统_企业上云桌面云服务解决方案

青椒云云电脑

云桌面 云桌面解决方案 云桌面系统

如何选择适合的开源框架来构建微服务架构?

EquatorCoco

开源 微服务 框架

Vue公共loading升级版(处理并发异步差时响应)

快乐非自愿限量之名

Vue 前端 处理机制

全栈程序员太难了,这个报表工具别再错过了!!

秃头小帅oi

程序员 前端 后端 低代码 全栈

为什么用 iVX 开发程序更快?快在哪里?

代码生成器研究

云桌面架构的全面剖析

青椒云云电脑

云桌面 云桌面解决方案 云桌面系统

开源流程设计器的对比与选型

小狗围观科幻

以色列企业浏览器 Talon,成立 2 年卖了 45 亿,国内安全浏览器看到曙光了?

连续创业的Janky

数据安全 安全浏览器 企业浏览器 数影星球 数影企业浏览器

「X」Embedding in NLP|初识自然语言处理(NLP)

Zilliz

nlp NLP 大模型 Milvus Zilliz

这6个复盘模型,你知道几个?让你轻松搞定年终总结

彭宏豪95

个人成长 复盘 年终总结 在线白板 项目复盘

软件测试/人工智能|使用ChatGPT帮我们绘制产品架构图

霍格沃兹测试开发学社

软件测试/人工智能|述职报告头很大,ChatGPT来帮你

霍格沃兹测试开发学社

无/低代码等于BPM吗?

代码生成器研究

为什么说低代码是编程初学者的理想选择。

代码生成器研究

api如何使用淘宝API接口获取店铺的所有商品

技术冰糖葫芦

API 文档

OpenAI“政变”进行时,“百模大战”接下来该战什么?

脑极体

AI

软件测试/人工智能丨人工智能会取代软件测试工程师吗

测试人

人工智能 软件测试

从大模型到内容生成,初窥门径的AI新次元

阿里云视频云

云计算 视频云 AIGC

体育直播系统多功能开发:专家分析、竞猜比分引爆用户互动欲望

软件开发-梦幻运营部

inBuilder低代码平台新特性推荐-第九期

inBuilder低代码平台

低代码

HDD行业沙龙举办,火火兔、看护家、乐普健康官宣开发鸿蒙原生应用

最新动态

云计算:开辟数字时代的无限可能

快乐非自愿限量之名

云计算 云原生

什么才是真正的低代码平台?

代码生成器研究

RTC技术沦陷后,人类或将一夜回到解放前?

X2Rtc

RTC 未来世界 科技趋势

原来 TinyVue 组件库跨框架(Vue2、Vue3、React、Solid)是这样实现的?

OpenTiny社区

开源 Vue 前端 React SOLID

体育赛事平台开发:赛事数据分析驱动体育平台创新

软件开发-梦幻运营部

百度百舸2.0升级发布:产业智能化升级需要怎样的基础设施?_AI&大模型_百度智能云_InfoQ精选文章