10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

  • 2019-12-11
  • 本文字数:1343 字

    阅读完需:约 4 分钟

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载,包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时,尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息,推断可能会占到其机器学习工作成本的 90%。


新 Inf1 实例


今天,我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持,旨在为您提供快速、低延迟的推断。


AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能:


  • 16 位浮点(FP16BF16)和混合精度数据上的 64 teraOPS。

  • 8 位整数 (INT8) 数据上的 128 teraOPS。


这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片,新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比,Inf1 实例可提供 3 倍的推断吞吐量,并且每个推断可降低成本高达 40%。


以下是大小和规格:


col 1col 2col 3col 4col 5col 6


** 实例名称


| Inferentia 芯片


** | vCPU | RAM | EBS 带宽 | 网络带宽


inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps


inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps


这些实例使用自定义的第二代 Intel® Xeon® Scalable (Cascade Lake) 处理器,并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分(在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区)推出。您可以立即启动实例,它们也即将可以通过 Amazon SageMakerAmazon ECS 以及 Amazon Elastic Kubernetes Service 推出。


使用 Inf1 实例


Amazon 深度学习 AMI 已更新,其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK,后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外,您还可以将 SDK 包括在您自己的 AMI 和映像中。


您可以在 GPU 实例上构建和培训模型,如 P3 或 P3dn,然后将其移至 Inf1 实例,以供生产使用。您可以使用在 FP16 中本地培训的模型,或者使用已培训为 32 位精度的模型,并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型(例如用于语言翻译或自然语言处理的模型)拆分到多个 Inferentia 芯片上,以便减少延迟。


此外,通过 AWS Neuron SDK,您还可以将模型分配至 Neuron 计算组,然后并行运行它们。这使您能够最大化硬件使用率,并将多个模型用作 Neuron Core Pipeline 模式的一部分,从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程,以了解更多信息!


Jeff;


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/


2019-12-11 15:361109

评论

发布
暂无评论
发现更多内容

文心大模型3.5国际评测拿下7个满分,大二学生1分钟AI作画估值百万!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 文心大模型

openGauss数据库源码解析系列文章——SQL引擎源码解析(1.2)

daydayup

opengauss

Docker学习路线10:容器安全

小万哥

Java c++ Python Go Docker

k8s+containerd安装

tiandizhiguai

k8s

如何理解 Next.js中的 SSR、CSR、SSG 、ISR以及DPR技术

汽车之家客户端前端团队

前端 SSR React服务端渲染原理

Notion 的用户经济 :爱好者们传播 “第二大脑” 的理念

B Impact

Java 命令行参数解析方式探索(一):原始实现

冰心的小屋

Java 命令行 console command

什么是供应链金融?定义集

zhengzai7

金融科技 供应链金融

HashMap | 利用白话文讲解其底层知识点

派大星

java 编程

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

股市老人

絮语2023

IT民工大叔

文心一言 VS 讯飞星火 VS chatgpt (65)-- 算法导论6.5 4题

福大大架构师每日一题

ChatGPT

软件开发必读!华为云软件开发生产线CodeArts深度体验指南

华为 软件开发 华为云

几种验证端口开启的方法

林十二XII

TE智库|《2023中国营销+AIGC市场研究报告》,解读首个被AIGC深度影响的场景

TE智库

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

鳄鱼视界

大模型,开源干不掉闭源

脑极体

开源 大模型

C++使用VLD检测内存泄漏

芯动大师

Amazon Redshift Serverless – 现已正式推出新功能

亚马逊云科技 (Amazon Web Services)

Amazon

倪光南院士在 PingCAP 用户峰会的现场致辞

PingCAP

数据库 TiDB pingCAP

LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程

Baihai IDP

人工智能 LLM 白海科技 数据集处理流程

【SPS人物志】安艺:永不服输是电竞选手最大的魅力

极客天地

一文熟知存储 – 从磁盘到文件,到数据库,到分布式环境集中式存储,再到分布式数据库

邹志全

数据库 分布式事务 分布式系统

刘奇:经典数据库亟需跃迁,TiDB 不是“平替”

PingCAP

数据库 TiDB pingCAP

PingCAP 唐刘:携手中国用户,打造世界级产品

PingCAP

数据库 TiDB pingCAP

学习SAFe大规模敏捷开发培训有什么好处?

顿顿顿

Scrum 敏捷开发 SAFe框架

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章