配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services）_InfoQ精选文章

2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么

登录/注册

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载，包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时，尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息，推断可能会占到其机器学习工作成本的 90%。

新 Inf1 实例

今天，我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持，旨在为您提供快速、低延迟的推断。

AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能：

16 位浮点（FP16 和 BF16）和混合精度数据上的 64 teraOPS。
8 位整数 (INT8) 数据上的 128 teraOPS。

这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片，新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比，Inf1 实例可提供 3 倍的推断吞吐量，并且每个推断可降低成本高达 40%。

以下是大小和规格：

col 1	col 2	col 3	col 4	col 5	col 6

** 实例名称

| Inferentia 芯片

** | vCPU | RAM | EBS 带宽 | 网络带宽

inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps

inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps

这些实例使用自定义的第二代 Intel^® Xeon^® Scalable (Cascade Lake) 处理器，并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分（在美国东部（弗吉尼亚北部）和美国西部（俄勒冈）地区）推出。您可以立即启动实例，它们也即将可以通过 Amazon SageMaker 和 Amazon ECS 以及 Amazon Elastic Kubernetes Service 推出。

使用 Inf1 实例

Amazon 深度学习 AMI 已更新，其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK，后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外，您还可以将 SDK 包括在您自己的 AMI 和映像中。

您可以在 GPU 实例上构建和培训模型，如 P3 或 P3dn，然后将其移至 Inf1 实例，以供生产使用。您可以使用在 FP16 中本地培训的模型，或者使用已培训为 32 位精度的模型，并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型（例如用于语言翻译或自然语言处理的模型）拆分到多个 Inferentia 芯片上，以便减少延迟。

此外，通过 AWS Neuron SDK，您还可以将模型分配至 Neuron 计算组，然后并行运行它们。这使您能够最大化硬件使用率，并将多个模型用作 Neuron Core Pipeline 模式的一部分，从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程，以了解更多信息！

— Jeff;

作者介绍：

!

### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师； 2004年开始发布博客，此后便笔耕不辍。

复制代码

本文转载自 AWS 技术博客。

原文链接：https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/

评论

发布

暂无评论

易观千帆 | 2023年3月证券APP月活跃用户规模盘点

Cookie与缓存的指导性规则

HTTP 三周年连更

2023 年最全面的 DevOps 工具列表，你用过几个？

Java架构历程

DevOps 三周年连更

Mac哪款系统性能软件好用呢？Performance Index 64 Pro mac版推荐~

真大的脸盆

Mac Mac 软件系统性能监测

云环境中的灾备规划与分析

穿过生命散发芬芳

灾备三周年连更

关于 SaaS 软件销售领域中的 Renewal 和 linearity

SaaS Cloud Studio 三周年连更

Python项目实战│ Python实现线程池工作模式

Python 线程池三周年连更工作模式

《俞军产品方法论》

读书笔记三周年连更

Android补间动画

三周年连更帧动画补间动画

Prometheus实战-从0构建高可用监控平台（一）

小毛驴的烂笔头

最常用的从A到Z的Linux命令，真的很好记，三分钟刷完！

Linux 三周年连更

Java如何获取@ApiModelProperty(value = “序列号“, name = “uuid“)注解中的value值name值？

三周年连更获取注解值

《API加速优化方案：多级缓存设计》

后台技术汇

三周年连更

DockerSwarm实践及原理

三周年连更

Retrofit 在 JSON 反序列化的时候提示 UnrecognizedPropertyException 异常

2022-04-24：用go语言重写ffmpeg的muxing.c示例。

福大大架构师每日一题

Go 音视频 ffmpeg

自动回收内存：Go语言的GC垃圾回收机制详解

一个神奇的小工具，让URL地址都变成了"ooooooooo"

JavaScript 前端 url

跨平台应用开发进阶(五十六)：应用渲染异常问题分析及解决

No Silver Bullet

跨平台应用开发三周年连更问题分析及解决渲染异常

小程序容器技术保障车载业务生态中的应用安全

小程序容器小程序技术车载业务车载生态车载应用

一种新的流：为 Java 加入生成器(Generator)特性

阿里巴巴云原生

Java 阿里云云原生

数字北京城，航行在联通2000M的“大运河”

Matlab实现遗传算法

三周年连更

文心一言 VS chatgpt （12）-- 算法导论3.1 6~7题

福大大架构师每日一题

ChatGPT 文心一言

测试需求平台9-Table组件应用产品列表优化

测试平台开发三周年连更

你如何看待，“国内ChatGPT还没成熟，但ChatGPT的付费模式已经成熟了？”

人工智能小傅哥 ChatGPT 人工智能ChatGPT 吗？ ChatGPT4

大数据之Hadoop图解概述

袁袁袁袁满

三周年连更

ADB模拟按手机上的“菜单”键

三周年连更

C# 之字符串前加@（逐字字符串标识符）

C# 三周年连更

高效易用的C++单元测试框架：轻松构建高质量代码

c++ GitHub 单元测试