写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

  • 2019-12-11
  • 本文字数:1343 字

    阅读完需:约 4 分钟

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载,包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时,尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息,推断可能会占到其机器学习工作成本的 90%。


新 Inf1 实例


今天,我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持,旨在为您提供快速、低延迟的推断。


AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能:


  • 16 位浮点(FP16BF16)和混合精度数据上的 64 teraOPS。

  • 8 位整数 (INT8) 数据上的 128 teraOPS。


这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片,新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比,Inf1 实例可提供 3 倍的推断吞吐量,并且每个推断可降低成本高达 40%。


以下是大小和规格:


col 1col 2col 3col 4col 5col 6


** 实例名称


| Inferentia 芯片


** | vCPU | RAM | EBS 带宽 | 网络带宽


inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps


inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps


这些实例使用自定义的第二代 Intel® Xeon® Scalable (Cascade Lake) 处理器,并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分(在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区)推出。您可以立即启动实例,它们也即将可以通过 Amazon SageMakerAmazon ECS 以及 Amazon Elastic Kubernetes Service 推出。


使用 Inf1 实例


Amazon 深度学习 AMI 已更新,其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK,后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外,您还可以将 SDK 包括在您自己的 AMI 和映像中。


您可以在 GPU 实例上构建和培训模型,如 P3 或 P3dn,然后将其移至 Inf1 实例,以供生产使用。您可以使用在 FP16 中本地培训的模型,或者使用已培训为 32 位精度的模型,并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型(例如用于语言翻译或自然语言处理的模型)拆分到多个 Inferentia 芯片上,以便减少延迟。


此外,通过 AWS Neuron SDK,您还可以将模型分配至 Neuron 计算组,然后并行运行它们。这使您能够最大化硬件使用率,并将多个模型用作 Neuron Core Pipeline 模式的一部分,从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程,以了解更多信息!


Jeff;


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/


2019-12-11 15:361084

评论

发布
暂无评论
发现更多内容

汽车行业数字化转型,迎来新机遇!

优秀

数字化转型 汽车行业 汽车行业数字化转型

1688商品API在跨境电商中的应用场景

技术冰糖葫芦

API

SD-WAN优化远程办公网络体验

Ogcloud

远程办公 网络 SD-WAN 组网

测试开发 | 保护数据隐私的分布式学习方法:构建安全智能未来

测吧(北京)科技有限公司

测试

软件测试/测试开发/人工智能丨如何通过分组 AUC 从不同的维度验证模型的能力

测试人

人工智能 软件测试

简述SD-WAN组网的五大技术优势

Ogcloud

网络 网络加速 SD-WAN 组网

面试官问我:线程锁导致的kafka客户端超时,如何解决?

华为云开发者联盟

开发 华为云 华为云开发者联盟 线程锁

MongoDB与大数据处理:构建高性能分布式数据库

互联网工科生

mongodb 非关系型数据库

第五代英特尔至强可扩展处理器AI性能大幅提升,英特尔加注推动人工智能无处不在

E科讯

大数据服务与低代码开发:赋能创新与效率的双剑合璧

不在线第一只蜗牛

大数据 软件开发 低代码

Java后端问题排查经验

WizInfo

大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景

武凯说

人工智能 领域模型 GPT 营销自动化 全媒体广告投放代理、

活动 | Mint Blockchain 赞助支持清迈 WAMOTOPIA 线下活动

NFT Research

blockchain NFT L2

英特尔成为openEuler社区黄金捐赠人,共建最具创新的开源社区

彭飞

如何给图数据库 NebulaGraph 新增一种数据类型,以 Binary 为例

NebulaGraph

数据库

浅聊PAM市场价值

尚思卓越

运维 网络安全

演讲回顾:半导体设计中的数字资产管理最佳实践

龙智—DevSecOps解决方案

数字资产管理

武汉 Linux 爱好者线下沙龙:WHLUG 2023 收官!不容错过!

nn-30

Linux 技术交流 线下沙龙 WHLUG LUG

整体模块化区块链技术引领区块链大规模采用

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

SD-WAN网络的可扩展性解析

Ogcloud

网络 SD-WAN 组网

Pipeline 助您轻松驾驭海量数据!

观测云

数据分析 日志 pipeline

软件测试/测试开发/人工智能丨ROC 与 AUC 的含义

测试人

人工智能 软件测试

大模型时代,未来所有公司都是 Data+AI 公司

Kyligence

人工智能 数据分析

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章