配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services）



 写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载，包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时，尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息，推断可能会占到其机器学习工作成本的 90%。

新 Inf1 实例

今天，我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持，旨在为您提供快速、低延迟的推断。

AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能：

16 位浮点（FP16 和 BF16）和混合精度数据上的 64 teraOPS。
8 位整数 (INT8) 数据上的 128 teraOPS。

这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片，新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比，Inf1 实例可提供 3 倍的推断吞吐量，并且每个推断可降低成本高达 40%。

以下是大小和规格：

col 1	col 2	col 3	col 4	col 5	col 6

** 实例名称

| Inferentia 芯片

** | vCPU | RAM | EBS 带宽 | 网络带宽

inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps

inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps

这些实例使用自定义的第二代 Intel^® Xeon^® Scalable (Cascade Lake) 处理器，并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分（在美国东部（弗吉尼亚北部）和美国西部（俄勒冈）地区）推出。您可以立即启动实例，它们也即将可以通过 Amazon SageMaker 和 Amazon ECS 以及 Amazon Elastic Kubernetes Service 推出。

使用 Inf1 实例

Amazon 深度学习 AMI 已更新，其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK，后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外，您还可以将 SDK 包括在您自己的 AMI 和映像中。

您可以在 GPU 实例上构建和培训模型，如 P3 或 P3dn，然后将其移至 Inf1 实例，以供生产使用。您可以使用在 FP16 中本地培训的模型，或者使用已培训为 32 位精度的模型，并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型（例如用于语言翻译或自然语言处理的模型）拆分到多个 Inferentia 芯片上，以便减少延迟。

此外，通过 AWS Neuron SDK，您还可以将模型分配至 Neuron 计算组，然后并行运行它们。这使您能够最大化硬件使用率，并将多个模型用作 Neuron Core Pipeline 模式的一部分，从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程，以了解更多信息！

— Jeff;

作者介绍：

### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师； 2004年开始发布博客，此后便笔耕不辍。

复制代码

本文转载自 AWS 技术博客。

原文链接：https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/

发布

暂无评论

创作场景

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

评论

汽车行业数字化转型，迎来新机遇！

1688商品API在跨境电商中的应用场景

SD-WAN优化远程办公网络体验

测试开发 | 保护数据隐私的分布式学习方法：构建安全智能未来

软件测试/测试开发/人工智能丨如何通过分组 AUC 从不同的维度验证模型的能力

简述SD-WAN组网的五大技术优势

面试官问我：线程锁导致的kafka客户端超时，如何解决？

MongoDB与大数据处理：构建高性能分布式数据库

第五代英特尔至强可扩展处理器AI性能大幅提升，英特尔加注推动人工智能无处不在

大数据服务与低代码开发：赋能创新与效率的双剑合璧

Java后端问题排查经验

大模型应用产品「归一妙计」亮相，AI Agent落地广告投放场景

活动 | Mint Blockchain 赞助支持清迈 WAMOTOPIA 线下活动

英特尔成为openEuler社区黄金捐赠人，共建最具创新的开源社区

如何给图数据库 NebulaGraph 新增一种数据类型，以 Binary 为例

浅聊PAM市场价值

演讲回顾：半导体设计中的数字资产管理最佳实践

武汉 Linux 爱好者线下沙龙：WHLUG 2023 收官！不容错过！

整体模块化区块链技术引领区块链大规模采用

SD-WAN网络的可扩展性解析

Pipeline 助您轻松驾驭海量数据！

软件测试/测试开发/人工智能丨ROC 与 AUC 的含义

大模型时代，未来所有公司都是 Data+AI 公司

创作场景

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载