写点什么

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

  • 2019-09-26
  • 本文字数:1446 字

    阅读完需:约 5 分钟

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

我今年早些时候承诺的由 NVIDIA 提供支持的 G4 实例现已推出,现在,您可以在 AWS 的八个区域开始使用六种大小的实例! 您可以将其用于机器学习训练和推理、视频转码、游戏流和远程图形工作站应用程序。


这些实例配备多达四个 NVIDIA T4 Tensor Core GPU,每个 GPU 配有 320 个 Turing Tensor 核心、2560 个 CUDA 核心和 16GB 内存。该 T4 GPU 是机器学习推理、计算机视觉、视频处理以及实时语音和自然语言处理的理想选择。该 T4 GPU 还配备 RT 核心,可提供由硬件驱动的高效光线跟踪。NVIDIA Quadro 虚拟工作站 (Quadro vWS) 可在 AWS Marketplace 中获取。该工作站支持实时光线追踪渲染,并可以加快在媒体和娱乐、建筑以及石油和天然气应用中常见的创造性工作流程。


G4 实例构建于 AWS Nitro 系统,由 AWS 定制的第二代 Intel® Xeon® 可扩展处理器 (Cascade Lake) 提供支持,该处理器配有多达 64 个 vCPU。Nitro 本地 NVMe 存储构建数据块可提供对高达 1.8TB 的快速本地 NVMe 存储的直接访问权限。Nitro 网络构建数据块可提供高速 ENA 网络。Intel AVX512-Deep Learning Boost 功能利用一组新的矢量神经网络指令(简写为 VNNI)扩展了 AVX-512。这些指令加速了多种推理算法内循环中的低精度乘法与加法运算。


实例大小如下:


实例名称NVIDIA T4 Tensor Core GPUvCPURAM本地存储EBS 带宽网络带宽
g4dn.xlarge1416GiB1 x 125GB最高 3.5Gbps最高 25Gbps
g4dn.2xlarge1832GiB1 x 225GB最高 3.5Gbps最高 25Gbps
g4dn.4xlarge11664GiB1 x 225GB最高 3.5Gbps最高 25Gbps
g4dn.8xlarge132128GiB1 x 900GB7Gbps50Gbps
g4dn.12xlarge448192GiB1 x 900GB7Gbps50Gbps
g4dn.16xlarge164256GiB1 x 900GB7Gbps50Gbps


我们还在研究一个裸机实例,该实例将在未来几个月内推出:


实例名称NVIDIA T4 Tensor Core GPUvCPURAM本地存储EBS 带宽网络带宽
g4dn.metal896384GiB2 x 900GB14Gbps100Gbps


如果要在 G4 实例上运行显卡工作负载,请确保使用最新版本的 NVIDIA AMI(可在 AWS Marketplace 中获得),以便您可以访问必需的 GRID 和显卡驱动程序,以及包含最新优化和补丁的 NVIDIA Quadro 工作站映像。您可以在以下位置找到所需内容:


  • NVIDIA 游戏 – Windows Server 2016

  • NVIDIA 游戏 – Windows Server 2019

  • NVIDIA 游戏 – Ubuntu 18.04

  • 最新版本的 AWS Deep Learning AMI 支持 G4 实例。开发出该 AMI 的团队对 g3.16xlarge 实例与 g4dn.12xlarge 实例进行了基准测试,并与我共享结果。以下是部分重点内容:

  • MxNet 推理(resnet50v2,无需使用 MMS 即可进行正向传递)– 速度为 2.03 倍。

  • MxNet 推理(使用 MMS)– 速度为 1.45 倍。

  • MxNet 训练(resnet50_v1b,1 个 GPU)– 速度为 2.19 倍。

  • Tensorflow 推理(resnet50v1.5,正向传递)– 速度为 2.00 倍。

  • 利用 Tensorflow 服务进行 Tensorflow 推理 (resnet50v2) – 速度为 1.72 倍。

  • Tensorflow 训练 (resnet50_v1.5) – 速度为 2.00 倍。

  • 基准测试使用 FP32 数值精度;如果您使用混合精度 (FP16) 或低精度 (INT8),则可以期待更大幅度的提升。


现在,您可以在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、美国西部(加利福尼亚北部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、亚太地区(首尔)和亚太地区(东京)区域启动 G4 实例。我们还致力于让这些实例可在 Amazon SageMaker 和 Amazon EKS 集群中使用。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/


2019-09-26 16:441793
用户头像

发布了 1900 篇内容, 共 144.3 次阅读, 收获喜欢 81 次。

关注

评论

发布
暂无评论
发现更多内容

华为云MVP付健权:从机械工程师到AI开发者的华丽转身

华为云开发者联盟

AI 转型 工程师

为什么你的“开发速度”和“产品性能”,都比不过竞品?丨开发者必读

葡萄城技术团队

iOS AOP 方案的对比与思考

GrowingIO技术专栏

ios aop

从基础设施到云原生应用,全方位解读阿里云原生新锐开源项目

阿里巴巴云原生

阿里云 开源 云原生

除了类 Excel, SpreadJS 表格控件还能为系统开发带来什么价值?

葡萄城技术团队

数字货币将使货币政策实施更精准有效

CECBC

数字货币

一个隐藏在方法集和方法调用中且易被忽略的小细节

Gopher指北

后端 Go 语言

迁移到 Atlassian Data Center 并没有您想象的那么可怕

Atlassian

负载均衡 高可用 Atlassian Jira

数字货币步伐加快,苏州将于双十二推出数字人民币红包测试

CECBC

数字人民币

Istio 中的智能 DNS 代理功能

Jimmy Song

开源 云原生 Service Mesh istio 服务网格

0到1产品需求整理分析模型参考

燕陈华

产品设计 产品需求

软件测试系统学习流程和常见面试题

测试人生路

软件测试

开发霸总:我要让所有人知道,这个扫码组件,被你承包了

蚂蚁集团移动开发平台 mPaaS

支付宝 uniapp mPaaS

Java程序员说:世界上有三个伟大的发明【火、轮子、kafka】

Java架构师迁哥

排序与二分

落曦

第九周 性能优化(三)总结

蓝黑

极客大学架构师训练营

架构师训练营第 1 期 第 9 周作业

李循律

极客大学架构师训练营

架构师训练营 - 第 9 周课后作业(1 期)

Pudding

LeetCode069-x的平方根-easy

书旅

数据结构 算法 Go 语言

Minikube-运行在笔记本上的Kubernetes集群

网管

学习 Kubernetes k8s minikube k8s入门

详解企业管理系统工作流配置

Marilyn

敏捷开发 工作流 软件架构

第九周作业

Geek_4c1353

极客大学架构师训练营

解读下一代网络:算力网络正从理想照进现实

华为云开发者联盟

AI 5G 网络 云技术

区块链加持,鉴定溯源双保险,科技赋能茅台老酒成零售数字化标杆

CECBC

区块链 大数据 防伪溯源

阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现

阿里巴巴云原生

阿里云 云原生 中间件

“人上人”大专学历,通过系统的六个学习步骤,艰难4面终砍offer,“跳进”字节跳动

Java架构追梦

Java 架构 字节跳动 面试 微服务

Serverless 架构就不要服务器了?

华为云开发者联盟

云计算 Serverless 架构

云原生趋势下的迁移与容灾思考

阿里巴巴云原生

云原生 迁移 容灾

披星戴月地辛苦割胶或成历史,海南胶园迎来这一“神器”!

华为云开发者联盟

云计算 大数据 IoT

架构训练营 - 第9周课后作业 - 学习总结

Pudding

上线操作规范——基础版本

程序员架构进阶

团队管理 开发流程 发布流程 规范

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章