NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

  • 2019-09-26
  • 本文字数:1446 字

    阅读完需:约 5 分钟

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

我今年早些时候承诺的由 NVIDIA 提供支持的 G4 实例现已推出,现在,您可以在 AWS 的八个区域开始使用六种大小的实例! 您可以将其用于机器学习训练和推理、视频转码、游戏流和远程图形工作站应用程序。


这些实例配备多达四个 NVIDIA T4 Tensor Core GPU,每个 GPU 配有 320 个 Turing Tensor 核心、2560 个 CUDA 核心和 16GB 内存。该 T4 GPU 是机器学习推理、计算机视觉、视频处理以及实时语音和自然语言处理的理想选择。该 T4 GPU 还配备 RT 核心,可提供由硬件驱动的高效光线跟踪。NVIDIA Quadro 虚拟工作站 (Quadro vWS) 可在 AWS Marketplace 中获取。该工作站支持实时光线追踪渲染,并可以加快在媒体和娱乐、建筑以及石油和天然气应用中常见的创造性工作流程。


G4 实例构建于 AWS Nitro 系统,由 AWS 定制的第二代 Intel® Xeon® 可扩展处理器 (Cascade Lake) 提供支持,该处理器配有多达 64 个 vCPU。Nitro 本地 NVMe 存储构建数据块可提供对高达 1.8TB 的快速本地 NVMe 存储的直接访问权限。Nitro 网络构建数据块可提供高速 ENA 网络。Intel AVX512-Deep Learning Boost 功能利用一组新的矢量神经网络指令(简写为 VNNI)扩展了 AVX-512。这些指令加速了多种推理算法内循环中的低精度乘法与加法运算。


实例大小如下:


实例名称NVIDIA T4 Tensor Core GPUvCPURAM本地存储EBS 带宽网络带宽
g4dn.xlarge1416GiB1 x 125GB最高 3.5Gbps最高 25Gbps
g4dn.2xlarge1832GiB1 x 225GB最高 3.5Gbps最高 25Gbps
g4dn.4xlarge11664GiB1 x 225GB最高 3.5Gbps最高 25Gbps
g4dn.8xlarge132128GiB1 x 900GB7Gbps50Gbps
g4dn.12xlarge448192GiB1 x 900GB7Gbps50Gbps
g4dn.16xlarge164256GiB1 x 900GB7Gbps50Gbps


我们还在研究一个裸机实例,该实例将在未来几个月内推出:


实例名称NVIDIA T4 Tensor Core GPUvCPURAM本地存储EBS 带宽网络带宽
g4dn.metal896384GiB2 x 900GB14Gbps100Gbps


如果要在 G4 实例上运行显卡工作负载,请确保使用最新版本的 NVIDIA AMI(可在 AWS Marketplace 中获得),以便您可以访问必需的 GRID 和显卡驱动程序,以及包含最新优化和补丁的 NVIDIA Quadro 工作站映像。您可以在以下位置找到所需内容:


  • NVIDIA 游戏 – Windows Server 2016

  • NVIDIA 游戏 – Windows Server 2019

  • NVIDIA 游戏 – Ubuntu 18.04

  • 最新版本的 AWS Deep Learning AMI 支持 G4 实例。开发出该 AMI 的团队对 g3.16xlarge 实例与 g4dn.12xlarge 实例进行了基准测试,并与我共享结果。以下是部分重点内容:

  • MxNet 推理(resnet50v2,无需使用 MMS 即可进行正向传递)– 速度为 2.03 倍。

  • MxNet 推理(使用 MMS)– 速度为 1.45 倍。

  • MxNet 训练(resnet50_v1b,1 个 GPU)– 速度为 2.19 倍。

  • Tensorflow 推理(resnet50v1.5,正向传递)– 速度为 2.00 倍。

  • 利用 Tensorflow 服务进行 Tensorflow 推理 (resnet50v2) – 速度为 1.72 倍。

  • Tensorflow 训练 (resnet50_v1.5) – 速度为 2.00 倍。

  • 基准测试使用 FP32 数值精度;如果您使用混合精度 (FP16) 或低精度 (INT8),则可以期待更大幅度的提升。


现在,您可以在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、美国西部(加利福尼亚北部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、亚太地区(首尔)和亚太地区(东京)区域启动 G4 实例。我们还致力于让这些实例可在 Amazon SageMaker 和 Amazon EKS 集群中使用。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-09-26 16:441193
用户头像

发布了 1836 篇内容, 共 92.4 次阅读, 收获喜欢 73 次。

关注

评论

发布
暂无评论
发现更多内容

GitHub开源:狗屁不通文章生成器

不脱发的程序猿

GitHub 开源 狗屁不通文章生成器

🕋【Redis干货领域】彻底走进主从架构的世界(入门篇)

洛神灬殇

主从同步 Redis 核心技术与实战 5月日更 Redis系列专题 原理篇

灵魂拷问:后端业务开发要会用 K8s 到什么程度?

阿里巴巴云原生

容器 运维 云原生 k8s 存储

华为中国生态大会2021举行在即,GaussDB将重磅发布5大解决方案

华为云开发者联盟

数据库 opengauss 华为云 GaussDB 云数据库

音视频在智能手表上的应用

anyRTC开发者

音视频 WebRTC IoT RTC

真实的DevOps落地,应该是这样的 ↓

BoCloud博云

DevOps 敏捷开发

test1

靠谱哥

音视频实战(6)- RTSP媒体协议流的录制方案及其覆盖策略详解

liuzhen007

音视频 5月日更 签约计划第二季

Java开发5年,我为什么选择从蚂蚁金服离职?浅谈经历和经验!

Java架构追梦

Java 架构 面试 蚂蚁金服 经历分享

百信银行基于 Apache Hudi 实时数据湖演进方案

Apache Flink

大数据 flink

声网、新东方、伴鱼英语的音视频技术解读

Jessie

音视频 视频消音

Fluid 进入 CNCF Sandbox,加速大数据和 AI 应用拥抱云原生

阿里巴巴云原生

人工智能 容器 云原生 调度 弹性计算

聊聊人像抠图背后的算法技术

华为云开发者联盟

hilens 抠图 工程 抠图算法 baseline

Golang command source code

escray

学习 极客时间 Go 语言 5月日更

双非渣硕,是如何拿到苏宁、阿里的offer的?(分享学习心得)

Java 程序员 架构 面试

【LeetCode】停在原地的方案数Java题解

Albert

算法 LeetCode 5月日更

KubeVela + KEDA:为应用带来“与生俱来”的弹性伸缩能力

阿里巴巴云原生

容器 开发者 云原生 监控 中间件

给Java小白,整理一套能上手的简单编程算法题!!!

小傅哥

Java 程序员 数据结构 算法 小傅哥

PyQt5 实现可空值的 QDateTimeEdit

一代咩神

Python PyQt QDateTimeEdit

单片机I/O控制方式(UART中断和DMA中断的区别)

不脱发的程序猿

嵌入式 单片机 GPIO的原理、特性 单片机I/O设备的控制方式

微服务转型系列4:理念指导实践,厘清微服务建设的主要内容和顺序

BoCloud博云

微服务

SpringBoot技术专题—来看看异步处理返回方案

洛神灬殇

Java WebAsyncTask 5月日更 AsyncContext DeferredResult

Nginx性能分析之gpreftools

运维研习社

nginx 性能分析 5月日更

深度剖析 | 关于数据锁定和读取一致性问题

VoltDB

数据库 数据分析 5G

华为云官网负责人明哥:我们是如何做到门面不倒,8个月挑战业界翘楚?

华为云开发者联盟

JavaScript node.js Serverless 云原生 大前端

python str模块

若尘

Python编程 str 5月日更

参照STM32时钟树配置STM32CubeMX Clock Configuration(STM32L011G4U6为例)

不脱发的程序猿

单片机 STM32微控制器 时钟树 STM32CubeMX STM32时钟配置

51CTO熊平:HarmonyOS是大势所趋

科技汇

【死磕JVM】用Arthas排查JVM内存 真爽!我从小用到大

牧小农

JVM

Flink+Clickhouse构建实时数仓的最佳实践

Wping

大数据 flink 实时数仓 Clickhouse

ThreadLocal不好用?那是你没用对!

王磊

Java 后端 多线程 ThreadLocal 5月日更

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章