配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services）

东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式！了解详情 



 写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载，包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时，尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息，推断可能会占到其机器学习工作成本的 90%。

新 Inf1 实例

今天，我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持，旨在为您提供快速、低延迟的推断。

AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能：

16 位浮点（FP16 和 BF16）和混合精度数据上的 64 teraOPS。
8 位整数 (INT8) 数据上的 128 teraOPS。

这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片，新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比，Inf1 实例可提供 3 倍的推断吞吐量，并且每个推断可降低成本高达 40%。

以下是大小和规格：

col 1	col 2	col 3	col 4	col 5	col 6

** 实例名称

| Inferentia 芯片

** | vCPU | RAM | EBS 带宽 | 网络带宽

inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps

inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps

这些实例使用自定义的第二代 Intel^® Xeon^® Scalable (Cascade Lake) 处理器，并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分（在美国东部（弗吉尼亚北部）和美国西部（俄勒冈）地区）推出。您可以立即启动实例，它们也即将可以通过 Amazon SageMaker 和 Amazon ECS 以及 Amazon Elastic Kubernetes Service 推出。

使用 Inf1 实例

Amazon 深度学习 AMI 已更新，其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK，后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外，您还可以将 SDK 包括在您自己的 AMI 和映像中。

您可以在 GPU 实例上构建和培训模型，如 P3 或 P3dn，然后将其移至 Inf1 实例，以供生产使用。您可以使用在 FP16 中本地培训的模型，或者使用已培训为 32 位精度的模型，并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型（例如用于语言翻译或自然语言处理的模型）拆分到多个 Inferentia 芯片上，以便减少延迟。

此外，通过 AWS Neuron SDK，您还可以将模型分配至 Neuron 计算组，然后并行运行它们。这使您能够最大化硬件使用率，并将多个模型用作 Neuron Core Pipeline 模式的一部分，从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程，以了解更多信息！

— Jeff;

作者介绍：

### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师； 2004年开始发布博客，此后便笔耕不辍。

复制代码

本文转载自 AWS 技术博客。

原文链接：https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

公众号推荐：

评论

巴延兴：从主导多个SIG组到OpenHarmony “代码贡献之星”，我是如何做到的？

helm v2 公共源大全

helm 注意事项

汽车行业云，如何管“多云”？

helm values.yaml

java培训redis集群原理分享

TiDB 6.0 Book Rush！一起来分布式创作 6.0 的使用手册吧！

helm 插件：helm-schema-gen——yaml转换json

web技术支持| 从视频元素流式传输到视频元素

2. helm 简介

用一个性能提升了666倍的小案例说明在TiDB中正确使用索引的重要性

helm 控制流程：循环、判断

转行运维工程师之后，我先把这几个Linux 命令记在了本子上，实干9场景

helm 自动滚动部署

TiDB【城市开拓招募帖】回答“社区活动什么时候来我的城市？”

贡献者任务第三期精彩来袭！

【Python】题集 of ③

helm 3.8 命令指南

helm 命名模板

helm 模板函数与管道

大数据培训Flink整合ElasticSearch

1. helm 目录

helm test 测试

helm charts openshift Certified 实践

helm v2 hooks

Java多线程知识点总结（思维导图+源码笔记

AIRIOT物联网低代码平台如何配置db-driver驱动？

4. helm 3.8.0 入门

5. helm charts 基础入门

helm charts 内置函数

helm NOTES.txt

创作场景

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载