阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

华为云 AI 容器:零基础搭建 AI 计算平台,提升计算效率 50%

  • 2019-11-20
  • 本文字数:1839 字

    阅读完需:约 6 分钟

华为云AI容器:零基础搭建AI计算平台,提升计算效率50%

如今,企业的数字化转型和智能升级必谈 AI,AI 在人们日常生活的中的产品和应用也随处可见,如智能音箱、AI 相机、人脸支付等。


但是,爆炸式增长的数据量、复杂的训练框架和算法,让很多企业现有的 AI 计算平台变得捉襟见肘:计算效率无法满足业务增加诉求,运营运维成本也居高不下。


华为云 AI 容器为客户提供更高性价比的算力,更简化了平台运维,提升 AI 计算效率 50%,加速了 AI 计算在各行业的落地和发展。

计算量 6 年增长 30 万倍 AI 平台扩容成本高

OpenAI 分析报告显示,从 2012 至 2018 年的 6 年时间,AI 训练使用的算力增长了 30 万倍,是同时期摩尔定律增长量的 5 倍。


这意味着,要保持计算速度不变,不能单单依靠芯片能力的升级,还必须增加计算设备投入。而专业 GPU 服务器配以高速网络、高速存储等设备,单台平均成本在 100 万左右,价格高昂,大部分企业难以承担。


系统日趋复杂 AI 平台运维难度激增

首先,不同的业务需要不同的 AI 训练框架、模型、加速库,如何在统一平台上管理不同的训练框架和模型,如何将线下训练快速部署到生产环境带来巨大挑战。


其次,AI 训练和公司业务使用不同的资源管理工具,使得运维团队需要掌握和使用多种资源管理工具,保障 GPU 利用率,增加运维复杂度。


再者, GPU 在集群内被不同业务团队共享,团队间的资源协调也会耗费不少精力。


公有云+容器化:AI 计算平台建设的必选之路

面对上述问题,各企业开始着手构建基于公有云和容器的 AI 计算平台,基于公有云的容器平台,能给客户带来什么样的好处呢?


更快速的获取算力资


面对 AI 计算需要的超大规模算力,自建 IDC 扩容周期长、一次性投入大,后期维护成本高,采用公有云,可以即申请即用,快速补充企业 IDC 算力的不足,同时具备更低的使用成本、无需关注基础设施维护、避免资源闲置造成浪费等优势,成为了客户扩充算力的最佳选择。


降低日常使用和运维难


用户搭建深度学习训练环境,需要准备带 GPU 的机器、安装 Python、TensorFlow、GPU 驱动等,如果要从开发环境到测试环境,再从测试环境到生成环境,涉及环境迁移过程中需要花很大精力来保证环境的一致性。


容器带来的标准化打包能力可以提供了绝佳的解决方案,将相关软件一并打包到镜像中,一次构建,即可在不同平台上运行,极大降低安装、部署的复杂度;同时各容器间相互隔离,可实现多训练框架并存,而且每一个框架都可以独立进行升级而不会影响其他业务,降低的日常运维的难度,让客户可以将更多的 精力集中在 AI 训练上。


但是,我们在与用户交流过程中发现,用户虽然认可公有云+容器的模式,但是在公有云上自建一套容器化的 AI 计算平台,对部分用户仍存在较大的技术门槛,尤其是那些尚未接触过容器的用户。


华为云就此推出了面向 AI 计算场景的容器服务——AI 容器,并于 2018 年在华为全联接大会发布,今年我们对 AI 容器进行了升级,在性能、易用性、可运维等方面都有了很大的提升。

华为云 AI 容器:更易使用和运维 提升 AI 计算效率 50%**

开箱即用 免除基础设施运


AI 容器采用华为云容器实例(CCI)作为基础设施层,得益于 CCI 的 Serverless 架构,用户完全无需关心主机的创建、管理、运维,而只需要在使用时申请所需要的算力资源即可(算力类型、CPU 核数、内存量),省去了基础设施的日常运维工作,用户可以更加专注于 AI 计算本身。


更快速的获取算力资


AI 容器基于全新的 Volcano 平台进行任务调度管理,Volcano 是华为云高性能批量计算平台,具有更高的调度性能,最高可达 1000 容器/秒,将算力获取的效率提升近 10 倍。


同时,有了 Volcano 的加持, AI 容器还可以基于拓扑和资源亲和进行任务调度,根据策略将关联任务调度到同一物理节点或二层网络内,极大的提升了 AI 训练过程中任务间通信及数据交互的效率。


秒级计费 资源性价比更高


AI 训练时客户需要快速、多次计算进行迭代,会对资源进行频繁的申请、释放,AI 容器采用按秒计费和套餐包的计费方式,真正做到按使用付费(PAYU),避免客户采用包周期等方式购买资源后,利用率不足而造成的浪费。


开放生态 支持主流训练框


随着 AI 平台容器化的深入,大量训练框架都已发布其容器版本,AI 容器目前已支持 Tensorflow, Caffe, Mxnet, Pytorch, MindSpore 等近十种主流训练框架,用户可以将训练代码平滑的迁移上云。


多样算力 用户选择更加灵活


AI 容器的能提供昇腾、鲲鹏、x86 和 GPU 等类型的算力资源,用户可以实现一套平台运行不同类型的应用,根据应用特点灵活选择算力资源,达到资源的最优配置。


添加小助手微信,加入【容器魔方】技术社群。



公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-11-20 19:021456

评论

发布
暂无评论
发现更多内容

StarRocks荣获开源中国“2022 年度优秀开源技术团队”

StarRocks

数据库

过年回去,终于给老人讲清楚两台电脑是如何通信的

华为云开发者联盟

后端 开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

国资委79号文解读:国央企OA办公系统信创替代落地实践与标杆案例

数字科技时讯

信创 电子合同 电子签名 企业国产化 OA

顶会论文 | 虚拟网络探测技术的探索与实践

阿里技术

网络运维 虚拟网络探测

城市健康云,打造大健康服务生态

华为云开发者联盟

云计算 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

自动驾驶工具链及仿真平台的应用

Baidu AICLOUD

自动驾驶 工具链

跨境电商“重新出发”,区块链赋能新玩法

旺链科技

区块链 区块链技术 区块链技术应用

零基础前端培训学习有用吗

小谷哥

北京大数据培训中心怎么样

小谷哥

详解 k8s 中的 RBAC

HummerCloud

云原生 k8s

奇安信首次盈利,网络安全国家队将迎来收获期?

ToB行业头条

网络安全

特定领域知识图谱融合方案:文本匹配算法(Simnet、Simcse、Diffcse)

汀丶人工智能

自然语言处理 知识图谱 2月日更

软件测试/测试开发 | app自动化测试(Android)--触屏操作自动化

测试人

软件测试 自动化测试 测试开发 appium

打造合规数据闭环,加速自动驾驶技术研发

Baidu AICLOUD

自动驾驶 数据闭环

百度智能云助力自动驾驶全链路研发

Baidu AICLOUD

自动驾驶 全链路

软件测试/测试开发 | app自动化测试(Android)--显式等待机制

测试人

软件测试 自动化测试 测试开发 appium app自动化测试

2023 年推荐这 10 个开发者工具

Liam

前端 后端 开发者工具 开发工具 程序员 java

会声会影2023中文版操视频剪辑软件下载

茶色酒

会声会影2023

PingCAP 黄东旭万字长文剖析数据库发展新趋势:脱离应用开发者的数据库,不会成功

PingCAP

数据库 TiDB

重塑设备维护管理的主要趋势

PreMaint

设备健康管理 设备管理

如何解决Mac电脑突然变得又卡又慢的处理方法

茶色酒

软件研发效能管理工具有哪些?8大效能管理工具盘点

PingCode

企业管理 管理软件 效能管理

随机高并发查询结果一致性设计实践

京东科技开发者

架构设计 并发 业务场景 企业号 2 月 PK 榜 京东物流

1 理解功能、业务功能和能力

涛哥 数字产品和业务架构

企业架构 业务架构 业务架构师

2024最新easyrecovery数据恢复软件免费版

茶色酒

EasyRecovery15

TiDB 6.5 新特性解析丨过去一年,我们是如何让 TiFlash 高效又稳定地榨干 CPU?

PingCAP

TiDB

如何将使用中的域名平滑迁移到京东云?(以原域名注册、域名解析都在万网为例)

京东科技开发者

域名解析 注册 京东云 京东商城 企业号 2 月 PK 榜

采购LED显示屏时必须了解哪些技术参数?

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

从实测出发,掌握 NebulaGraph Exchange 性能最大化的秘密

NebulaGraph

数据导入

为什么我在公司里访问不了家里的电脑?

做梦都在改BUG

Java 计算机网络 网络协议

开发小白的高光逆袭:竟然能一眼断定生产环境接口响应时间慢是磁盘性能问题引起的

KINDLING

Java 故障定位 ebpf 生产环境 排障

华为云AI容器:零基础搭建AI计算平台,提升计算效率50%_软件工程_华为云原生团队_InfoQ精选文章