配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services）_InfoQ精选文章



 写点什么

登录/注册

配备 AWS Inferentia 芯片的 Inf1 实例推出，实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载，包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时，尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息，推断可能会占到其机器学习工作成本的 90%。

新 Inf1 实例

今天，我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持，旨在为您提供快速、低延迟的推断。

AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能：

16 位浮点（FP16 和 BF16）和混合精度数据上的 64 teraOPS。
8 位整数 (INT8) 数据上的 128 teraOPS。

这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片，新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比，Inf1 实例可提供 3 倍的推断吞吐量，并且每个推断可降低成本高达 40%。

以下是大小和规格：

col 1	col 2	col 3	col 4	col 5	col 6

** 实例名称

| Inferentia 芯片

** | vCPU | RAM | EBS 带宽 | 网络带宽

inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps

inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps

inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps

这些实例使用自定义的第二代 Intel^® Xeon^® Scalable (Cascade Lake) 处理器，并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分（在美国东部（弗吉尼亚北部）和美国西部（俄勒冈）地区）推出。您可以立即启动实例，它们也即将可以通过 Amazon SageMaker 和 Amazon ECS 以及 Amazon Elastic Kubernetes Service 推出。

使用 Inf1 实例

Amazon 深度学习 AMI 已更新，其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK，后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外，您还可以将 SDK 包括在您自己的 AMI 和映像中。

您可以在 GPU 实例上构建和培训模型，如 P3 或 P3dn，然后将其移至 Inf1 实例，以供生产使用。您可以使用在 FP16 中本地培训的模型，或者使用已培训为 32 位精度的模型，并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型（例如用于语言翻译或自然语言处理的模型）拆分到多个 Inferentia 芯片上，以便减少延迟。

此外，通过 AWS Neuron SDK，您还可以将模型分配至 Neuron 计算组，然后并行运行它们。这使您能够最大化硬件使用率，并将多个模型用作 Neuron Core Pipeline 模式的一部分，从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程，以了解更多信息！

— Jeff;

作者介绍：

!

### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师； 2004年开始发布博客，此后便笔耕不辍。

复制代码

本文转载自 AWS 技术博客。

原文链接：https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/

评论

发布

暂无评论

KeyShot 2024.3 for mac(3D渲染和动画制作软件) 中文版系统要求

面对大量指标、模型，如何在研发度量中兼顾易用性？

思码逸研发效能

研发管理研发效能效能管理研发效能度量思码逸

Idea自动生成注释

2025年福建企业采购堡垒机选哪家？需要重点考虑哪些因素？

网络安全堡垒机福建

DevOps如何实现持续交付

【纯干货】手把手教你测试1688代采下单系统（附真实操作案例）

1688代采集运系统

YashanDB与Oracle兼容性说明

数据库 yashandb

QGIS开发的技术难点

北京木奇移动技术有限公司

软件外包公司 GIS开发 QGIS开发

LambdaQueryWrapper的使用

java 技术提升

支付宝 IoT 设备入门宝典（上）设备管理篇

盐焗代码虾

支付宝物联网 IoT 设备管理应用分发

软件等保测评相关问题汇总

网络安全等保等保测评

QCon 是一个在软件开发领域具有广泛影响力的技术盛会，以下为你详细介绍：

持续交付的优势有哪些

DataWorks Copilot × DeepSeek-R1 来了！给你的智能数据开发加满 buff

阿里云大数据AI技术

人工智能阿里云 nlp Dataworks DeepSeek

品牌连锁智能管理系统（源码+文档+部署+讲解）

深圳亥时科技

初创公司使用 AI “码农” Devin 一个月的体验

程序员 AI LLM AI Agents Devin

云上玩转DeepSeek系列之二：PAI+DeepSeek，打造智能问答助手

阿里云大数据AI技术

人工智能最佳实践 rag PAI DeepSeek

关于 “DevOps 实践的深入剖析：从持续集成到持续交付” 相关内容的详细

从文心一言与ChatGPT同时免费，读懂全球AI新周期

Squaretest自动生成单元测试

windows查看端口占用情况

适合小型企业的库存管理工具推荐（含免费、开源）

开源低代码无代码库存管理小企业发展

Dbeaver迁移配置

QGIS 的性能优化

北京木奇移动技术有限公司

软件外包公司 GIS开发 QGIS开发

火语言RPA--配置文件读取

DeepSeek与Playwright结合，利用AI提升自动化测试脚本生成与覆盖率优化

NotePad++使用批量替换修改文件格式

如何在`created`生命周期钩子中使用`sessionStorage`实现缓存

亚马逊商品列表数据接口（亚马逊 API 系列）

亚马逊商品列表接口亚马逊API接口亚马逊数据采集