限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

  • 2019-09-26
  • 本文字数:1446 字

    阅读完需:约 5 分钟

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

我今年早些时候承诺的由 NVIDIA 提供支持的 G4 实例现已推出,现在,您可以在 AWS 的八个区域开始使用六种大小的实例! 您可以将其用于机器学习训练和推理、视频转码、游戏流和远程图形工作站应用程序。


这些实例配备多达四个 NVIDIA T4 Tensor Core GPU,每个 GPU 配有 320 个 Turing Tensor 核心、2560 个 CUDA 核心和 16GB 内存。该 T4 GPU 是机器学习推理、计算机视觉、视频处理以及实时语音和自然语言处理的理想选择。该 T4 GPU 还配备 RT 核心,可提供由硬件驱动的高效光线跟踪。NVIDIA Quadro 虚拟工作站 (Quadro vWS) 可在 AWS Marketplace 中获取。该工作站支持实时光线追踪渲染,并可以加快在媒体和娱乐、建筑以及石油和天然气应用中常见的创造性工作流程。


G4 实例构建于 AWS Nitro 系统,由 AWS 定制的第二代 Intel® Xeon® 可扩展处理器 (Cascade Lake) 提供支持,该处理器配有多达 64 个 vCPU。Nitro 本地 NVMe 存储构建数据块可提供对高达 1.8TB 的快速本地 NVMe 存储的直接访问权限。Nitro 网络构建数据块可提供高速 ENA 网络。Intel AVX512-Deep Learning Boost 功能利用一组新的矢量神经网络指令(简写为 VNNI)扩展了 AVX-512。这些指令加速了多种推理算法内循环中的低精度乘法与加法运算。


实例大小如下:


实例名称NVIDIA T4 Tensor Core GPUvCPURAM本地存储EBS 带宽网络带宽
g4dn.xlarge1416GiB1 x 125GB最高 3.5Gbps最高 25Gbps
g4dn.2xlarge1832GiB1 x 225GB最高 3.5Gbps最高 25Gbps
g4dn.4xlarge11664GiB1 x 225GB最高 3.5Gbps最高 25Gbps
g4dn.8xlarge132128GiB1 x 900GB7Gbps50Gbps
g4dn.12xlarge448192GiB1 x 900GB7Gbps50Gbps
g4dn.16xlarge164256GiB1 x 900GB7Gbps50Gbps


我们还在研究一个裸机实例,该实例将在未来几个月内推出:


实例名称NVIDIA T4 Tensor Core GPUvCPURAM本地存储EBS 带宽网络带宽
g4dn.metal896384GiB2 x 900GB14Gbps100Gbps


如果要在 G4 实例上运行显卡工作负载,请确保使用最新版本的 NVIDIA AMI(可在 AWS Marketplace 中获得),以便您可以访问必需的 GRID 和显卡驱动程序,以及包含最新优化和补丁的 NVIDIA Quadro 工作站映像。您可以在以下位置找到所需内容:


  • NVIDIA 游戏 – Windows Server 2016

  • NVIDIA 游戏 – Windows Server 2019

  • NVIDIA 游戏 – Ubuntu 18.04

  • 最新版本的 AWS Deep Learning AMI 支持 G4 实例。开发出该 AMI 的团队对 g3.16xlarge 实例与 g4dn.12xlarge 实例进行了基准测试,并与我共享结果。以下是部分重点内容:

  • MxNet 推理(resnet50v2,无需使用 MMS 即可进行正向传递)– 速度为 2.03 倍。

  • MxNet 推理(使用 MMS)– 速度为 1.45 倍。

  • MxNet 训练(resnet50_v1b,1 个 GPU)– 速度为 2.19 倍。

  • Tensorflow 推理(resnet50v1.5,正向传递)– 速度为 2.00 倍。

  • 利用 Tensorflow 服务进行 Tensorflow 推理 (resnet50v2) – 速度为 1.72 倍。

  • Tensorflow 训练 (resnet50_v1.5) – 速度为 2.00 倍。

  • 基准测试使用 FP32 数值精度;如果您使用混合精度 (FP16) 或低精度 (INT8),则可以期待更大幅度的提升。


现在,您可以在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、美国西部(加利福尼亚北部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、亚太地区(首尔)和亚太地区(东京)区域启动 G4 实例。我们还致力于让这些实例可在 Amazon SageMaker 和 Amazon EKS 集群中使用。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/


2019-09-26 16:441834
用户头像

发布了 1913 篇内容, 共 148.6 次阅读, 收获喜欢 81 次。

关注

评论

发布
暂无评论
发现更多内容

分布式QoS算法解析

焱融科技

分布式 算法 焱融科技 分布式文件存储 QoS

可编程网卡芯片在滴滴云网络的应用实践

滴滴技术

云计算 芯片 滴滴技术

滴滴数据通道服务演进之路

滴滴技术

大数据 滴滴技术 数据服务通道

浅析LR.Net工作流引擎

Learun

.net 敏捷开发 工作流

Zeppelin SDK :Flink 平台建设的基石

Apache Flink

flink

实时数仓在滴滴的实践和落地

滴滴技术

大数据 滴滴技术 数据通道服务

在Rust里面嵌入python代码

lipi

Python rust

迭代技术方案设计文档规范

程序员架构进阶

技术方案

滴滴Ceph分布式存储系统优化之锁优化

滴滴技术

云计算 分布式存储 Ceph 滴滴技术

物联网的银河,华为的桨,少年的歌

脑极体

1.Flink检查点算法-15

小知识点

scala 大数据 flink

【Spring注解驱动开发】AOP核心类源码解析,这是最全的一篇了!!

冰河

spring aop ioc

隐私计算会成为“金融”向“数科”转型的一剂猛药?

hellompc

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

滴滴技术

大数据 elasticsearch 滴滴技术

GPU虚拟机创建时间深度优化

滴滴技术

云计算 虚拟化 滴滴技术

数据分析之伯克森谬误:颜值和性格真成反比吗

KAMI

人生 数据分析 数据

拥抱K8S系列-03-服务器部署应用和docker部署应用区别(MySQL篇)

张无忌

MySQL Docker 运维

第 0 期架构师训练营第 8 周作业 1

fujin

突破传统 区块链如何实现病历永存

CECBC

区块链 电子病历 信息共享

基于Prometheus的微服务应用监控

易观大数据

滴滴推理引擎IFX:千万规模设备下AI部署实践

滴滴技术

人工智能 学习 AI 滴滴技术 IFX

滴滴数据仓库指标体系建设实践

滴滴技术

大数据 数据仓库 滴滴技术

滴滴七层接入平台实践和探索

滴滴技术

微服务 运维 滴滴技术 七层接入

滴滴云平台事业群——就是稳!

滴滴技术

招聘 滴滴技术 滴滴云平台事业群分享月

合约跟单系统开发,数字货币合约跟单软件搭建

13530558032

Redis做消息队列全攻略

架构师修行之路

redis MQ 消息队列

第 0 期架构师训练营第 8 周作业2-总结

fujin

区块链技术成为金融业务应用热点

CECBC

区块链 人工智能 金融

自定义线程池来实现文档转码

架构师修行之路

c语言函数指针之回调函数

C语言与CPP编程

C语言 回调函数 函数 函数指针

week12学习总结

burner

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章