2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

  • 2019-12-11
  • 本文字数:1343 字

    阅读完需:约 4 分钟

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载,包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时,尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息,推断可能会占到其机器学习工作成本的 90%。


新 Inf1 实例


今天,我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持,旨在为您提供快速、低延迟的推断。


AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能:


  • 16 位浮点(FP16BF16)和混合精度数据上的 64 teraOPS。

  • 8 位整数 (INT8) 数据上的 128 teraOPS。


这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片,新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比,Inf1 实例可提供 3 倍的推断吞吐量,并且每个推断可降低成本高达 40%。


以下是大小和规格:


col 1col 2col 3col 4col 5col 6


** 实例名称


| Inferentia 芯片


** | vCPU | RAM | EBS 带宽 | 网络带宽


inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps


inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps


这些实例使用自定义的第二代 Intel® Xeon® Scalable (Cascade Lake) 处理器,并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分(在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区)推出。您可以立即启动实例,它们也即将可以通过 Amazon SageMakerAmazon ECS 以及 Amazon Elastic Kubernetes Service 推出。


使用 Inf1 实例


Amazon 深度学习 AMI 已更新,其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK,后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外,您还可以将 SDK 包括在您自己的 AMI 和映像中。


您可以在 GPU 实例上构建和培训模型,如 P3 或 P3dn,然后将其移至 Inf1 实例,以供生产使用。您可以使用在 FP16 中本地培训的模型,或者使用已培训为 32 位精度的模型,并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型(例如用于语言翻译或自然语言处理的模型)拆分到多个 Inferentia 芯片上,以便减少延迟。


此外,通过 AWS Neuron SDK,您还可以将模型分配至 Neuron 计算组,然后并行运行它们。这使您能够最大化硬件使用率,并将多个模型用作 Neuron Core Pipeline 模式的一部分,从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程,以了解更多信息!


Jeff;


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/


2019-12-11 15:361175

评论

发布
暂无评论
发现更多内容

易观千帆 | 2023年3月证券APP月活跃用户规模盘点

易观分析

证券 经济

Cookie与缓存的指导性规则

阿泽🧸

HTTP 三周年连更

2023 年最全面的 DevOps 工具列表,你用过几个?

Java架构历程

DevOps 三周年连更

Mac哪款系统性能软件好用呢?Performance Index 64 Pro mac版推荐~

真大的脸盆

Mac Mac 软件 系统性能监测

云环境中的灾备规划与分析

穿过生命散发芬芳

灾备 三周年连更

关于 SaaS 软件销售领域中的 Renewal 和 linearity

汪子熙

SaaS Cloud Studio 三周年连更

Python项目实战│ Python实现线程池工作模式

TiAmo

Python 线程池 三周年连更 工作模式

《俞军产品方法论》

石云升

读书笔记 三周年连更

Android补间动画

芯动大师

三周年连更 帧动画 补间动画

Prometheus实战-从0构建高可用监控平台(一)

小毛驴的烂笔头

Prometheus

最常用的从A到Z的Linux命令,真的很好记,三分钟刷完!

wljslmz

Linux 三周年连更

Java如何获取@ApiModelProperty(value = “序列号“, name = “uuid“)注解中的value值name值?

bug菌

三周年连更 获取注解值

《API加速优化方案:多级缓存设计》

后台技术汇

三周年连更

DockerSwarm实践及原理

乌龟哥哥

三周年连更

Retrofit 在 JSON 反序列化的时候提示 UnrecognizedPropertyException 异常

HoneyMoose

2022-04-24:用go语言重写ffmpeg的muxing.c示例。

福大大架构师每日一题

Go 音视频 ffmpeg

自动回收内存:Go语言的GC垃圾回收机制详解

Jack

一个神奇的小工具,让URL地址都变成了"ooooooooo"

南城FE

JavaScript 前端 url

跨平台应用开发进阶(五十六):应用渲染异常问题分析及解决

No Silver Bullet

跨平台应用开发 三周年连更 问题分析及解决 渲染异常

小程序容器技术保障车载业务生态中的应用安全

FinFish

小程序容器 小程序技术 车载业务 车载生态 车载应用

一种新的流:为 Java 加入生成器(Generator)特性

阿里巴巴云原生

Java 阿里云 云原生

数字北京城,航行在联通2000M的“大运河”

脑极体

联通

Matlab实现遗传算法

Shine

三周年连更

文心一言 VS chatgpt (12)-- 算法导论3.1 6~7题

福大大架构师每日一题

ChatGPT 文心一言

测试需求平台9-Table组件应用产品列表优化

MegaQi

测试平台开发 三周年连更

你如何看待,“国内ChatGPT还没成熟,但ChatGPT的付费模式已经成熟了?”

小傅哥

人工智能 小傅哥 ChatGPT 人工智能ChatGPT 吗? ChatGPT4

大数据之Hadoop图解概述

袁袁袁袁满

三周年连更

ADB模拟按手机上的“菜单”键

IT蜗壳-Tango

三周年连更

C# 之 字符串前加@(逐字字符串标识符)

陈言必行

C# 三周年连更

高效易用的C++单元测试框架:轻松构建高质量代码

万木春

c++ GitHub 单元测试

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章