阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

华为云 AI 容器:零基础搭建 AI 计算平台,提升计算效率 50%

  • 2019-11-20
  • 本文字数:1839 字

    阅读完需:约 6 分钟

华为云AI容器:零基础搭建AI计算平台,提升计算效率50%

如今,企业的数字化转型和智能升级必谈 AI,AI 在人们日常生活的中的产品和应用也随处可见,如智能音箱、AI 相机、人脸支付等。


但是,爆炸式增长的数据量、复杂的训练框架和算法,让很多企业现有的 AI 计算平台变得捉襟见肘:计算效率无法满足业务增加诉求,运营运维成本也居高不下。


华为云 AI 容器为客户提供更高性价比的算力,更简化了平台运维,提升 AI 计算效率 50%,加速了 AI 计算在各行业的落地和发展。

计算量 6 年增长 30 万倍 AI 平台扩容成本高

OpenAI 分析报告显示,从 2012 至 2018 年的 6 年时间,AI 训练使用的算力增长了 30 万倍,是同时期摩尔定律增长量的 5 倍。


这意味着,要保持计算速度不变,不能单单依靠芯片能力的升级,还必须增加计算设备投入。而专业 GPU 服务器配以高速网络、高速存储等设备,单台平均成本在 100 万左右,价格高昂,大部分企业难以承担。


系统日趋复杂 AI 平台运维难度激增

首先,不同的业务需要不同的 AI 训练框架、模型、加速库,如何在统一平台上管理不同的训练框架和模型,如何将线下训练快速部署到生产环境带来巨大挑战。


其次,AI 训练和公司业务使用不同的资源管理工具,使得运维团队需要掌握和使用多种资源管理工具,保障 GPU 利用率,增加运维复杂度。


再者, GPU 在集群内被不同业务团队共享,团队间的资源协调也会耗费不少精力。


公有云+容器化:AI 计算平台建设的必选之路

面对上述问题,各企业开始着手构建基于公有云和容器的 AI 计算平台,基于公有云的容器平台,能给客户带来什么样的好处呢?


更快速的获取算力资


面对 AI 计算需要的超大规模算力,自建 IDC 扩容周期长、一次性投入大,后期维护成本高,采用公有云,可以即申请即用,快速补充企业 IDC 算力的不足,同时具备更低的使用成本、无需关注基础设施维护、避免资源闲置造成浪费等优势,成为了客户扩充算力的最佳选择。


降低日常使用和运维难


用户搭建深度学习训练环境,需要准备带 GPU 的机器、安装 Python、TensorFlow、GPU 驱动等,如果要从开发环境到测试环境,再从测试环境到生成环境,涉及环境迁移过程中需要花很大精力来保证环境的一致性。


容器带来的标准化打包能力可以提供了绝佳的解决方案,将相关软件一并打包到镜像中,一次构建,即可在不同平台上运行,极大降低安装、部署的复杂度;同时各容器间相互隔离,可实现多训练框架并存,而且每一个框架都可以独立进行升级而不会影响其他业务,降低的日常运维的难度,让客户可以将更多的 精力集中在 AI 训练上。


但是,我们在与用户交流过程中发现,用户虽然认可公有云+容器的模式,但是在公有云上自建一套容器化的 AI 计算平台,对部分用户仍存在较大的技术门槛,尤其是那些尚未接触过容器的用户。


华为云就此推出了面向 AI 计算场景的容器服务——AI 容器,并于 2018 年在华为全联接大会发布,今年我们对 AI 容器进行了升级,在性能、易用性、可运维等方面都有了很大的提升。

华为云 AI 容器:更易使用和运维 提升 AI 计算效率 50%**

开箱即用 免除基础设施运


AI 容器采用华为云容器实例(CCI)作为基础设施层,得益于 CCI 的 Serverless 架构,用户完全无需关心主机的创建、管理、运维,而只需要在使用时申请所需要的算力资源即可(算力类型、CPU 核数、内存量),省去了基础设施的日常运维工作,用户可以更加专注于 AI 计算本身。


更快速的获取算力资


AI 容器基于全新的 Volcano 平台进行任务调度管理,Volcano 是华为云高性能批量计算平台,具有更高的调度性能,最高可达 1000 容器/秒,将算力获取的效率提升近 10 倍。


同时,有了 Volcano 的加持, AI 容器还可以基于拓扑和资源亲和进行任务调度,根据策略将关联任务调度到同一物理节点或二层网络内,极大的提升了 AI 训练过程中任务间通信及数据交互的效率。


秒级计费 资源性价比更高


AI 训练时客户需要快速、多次计算进行迭代,会对资源进行频繁的申请、释放,AI 容器采用按秒计费和套餐包的计费方式,真正做到按使用付费(PAYU),避免客户采用包周期等方式购买资源后,利用率不足而造成的浪费。


开放生态 支持主流训练框


随着 AI 平台容器化的深入,大量训练框架都已发布其容器版本,AI 容器目前已支持 Tensorflow, Caffe, Mxnet, Pytorch, MindSpore 等近十种主流训练框架,用户可以将训练代码平滑的迁移上云。


多样算力 用户选择更加灵活


AI 容器的能提供昇腾、鲲鹏、x86 和 GPU 等类型的算力资源,用户可以实现一套平台运行不同类型的应用,根据应用特点灵活选择算力资源,达到资源的最优配置。


添加小助手微信,加入【容器魔方】技术社群。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-20 19:021458

评论

发布
暂无评论
发现更多内容

听到心声,看见变化——WeLink助力上海理工大学打造“校园12345服务平台”

平平无奇爱好科技

Java 包和 API 深度解析:组织代码,避免命名冲突

小万哥

Java 程序人生 编程语言 软件工程 后端开发

MySql中BufferPool的基本概念介绍

百度搜索:蓝易云

MySQL Linux 运维 innodb 云服务器

SecureCRT for mac(好用的终端SSH仿真工具)v9.5.1注册激活版

影影绰绰一往直前

Topaz Video AI for mac(地表最强视频无损放大修复工具)v4.2.0激活版

影影绰绰一往直前

SecureFX for Mac(ftp文件传输工具)v9.5.1 注册激活版

影影绰绰一往直前

Affinity Publisher for Mac(逆天排版神器)v2.4.0直装版

影影绰绰一往直前

软件质效领航者!思码逸荣获中国信通院2023“软件质效领航者”优秀案例

思码逸研发效能

对话行业智能化先锋|宁夏大学:从300间未来教室迈向教育智能化

平平无奇爱好科技

开启软件架构设计之门:初识软件架构设计的奥秘

灸哥漫谈

架构师 软件架构设计 系统架构师 系统架构设计

Linux学习之Ubuntu 20使用systemd管理OpenResty服务

百度搜索:蓝易云

Linux ubuntu 运维 openresty systemd

巧用飞羽审批,实现业务起飞

平平无奇爱好科技

OpenAI 视频生成模型发布,创作者如何利用 AI 工具最大化提升创作效率?

算法的秘密

Metes and Bounds Pro for Mac(房地产契约绘图软件)v6.1.0激活版

影影绰绰一往直前

CQ 社区版 2.9.0 | 新增告警配置、GaussDB-DWS、脱敏数据可明文查询等

BinTools图尔兹

告警 数据脱敏 数据库管控 SQLite编辑器

WingPro for Mac(强大的Python开发工具)v9.1.2.0注册激活版

影影绰绰一往直前

用WeLink连接每一位员工,加速打造“数字易立德”

平平无奇爱好科技

PDF怎么转换成PPT文件?用这个AI在线转换工具,轻松搞定!

彭宏豪95

效率 职场 在线白板 办公软件 AIGC

Adjustable Precision Shunt Regulator

智趣匠

Snagit for mac(最强大的屏幕截图软件)v2024.2.0中文版

影影绰绰一往直前

探秘软件公司开发各种小程序、APP、网站、应用程序的开发方案及优惠报价

天津汇柏科技有限公司

创业 软件定制 定制开发 定制软件开发 软件开发定制

预算有限,资源冗余?DWS集群缩容如何帮你解决烦劳

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GaussDB(DWS)

Affinity Photo for Mac(好用的图片编辑软件)v2.3.2免激活版

影影绰绰一往直前

ProPresenter for Mac(现场分屏演示工具) v7.16汉化版

影影绰绰一往直前

释放心中的野兽

一跃皑皑

Affinity Designer for Mac(强大的矢量图设计软件)v2.4.0中文免激活版

影影绰绰一往直前

AI板块的火热,现在参与Gensyn来得及吗?

币离海

AI Gensyn

研发效能是不是一个伪命题:关于研发效能的思考

思码逸研发效能

通过 Kong Gateway 性能基准和开源测试套件实现透明度和信任

Gingxing

kong API网关 Kong 网关 消息网关 Kong Gateway

云服务器搭建网站全过程

百度搜索:蓝易云

云计算 Linux 运维 云服务器 ECS

基于 Amazon S3 Express One Zone 和 Amazon SageMaker 的图像分类模型实战—深析新旧产品突显 Express One Zone 在性能上的优势

亚马逊云科技 (Amazon Web Services)

华为云AI容器:零基础搭建AI计算平台,提升计算效率50%_软件工程_华为云原生团队_InfoQ精选文章