写点什么

英特尔首款 AI 芯片终发布,云端训练推理两用,却不是 7nm 制作工艺

2019 年 8 月 21 日

英特尔首款AI芯片终发布,云端训练推理两用,却不是7nm制作工艺

英特尔Newsroom消息,当地时间8月20日,英特尔在Hot Chips 2019大会上,公布了即将推出的高性能人工智能(AI)加速器的新细节:英特尔Nervana神经网络处理器——NNP-T用于训练,NNP-I用于推理。


英特尔在人工智能领域投入颇多,自 2015 年起,便陆续收购了 Altera、Nervana Systems、Movidius 以及 Vertex. ai,现在英特尔除 FPGA 产品线外,还推出了 Nervana 深度学习加速器,在 Hot Chips 2019 大会上,英特尔公布了 Nervana NNP 神经网络处理器的相关细节,包括云端训练用神经网络处理器 NNP-T 和云端推理用神经网络处理器 NNP-I,据英特尔称,NNP-I 已经被 Facebook 采用。


英特尔 Nervana NNP-I


英特尔 Nervana NNP-I,为推理而专门设计,又称 Spring Hill,利用英特尔 10nm 制作工艺与 Ice Lake 内核。



NNP-I 基于英特尔 10nm 制作工艺的 Ice Lake 处理器架构设计,功耗在 10-50w 之间。在数据中心推理工作负载中,NNP-I 的运算效率可达 4.8TOPs/W;推理计算引擎 ICE 则主要由深度学习计算网格、可编程矢量处理器、高带宽内存接口、超大本地缓存组成,可支持 FP16、INT8、INT 4/2/1 的浮点运算。



此外,NNP-I 提供高度可编程性,随着 AI 在每个工作负载中普及,拥有一个易于编程的专用推理加速器,并且对包括 ONNX,nGraph,OpenVINO,C++等主要深度学习框架的支持,有助于公司充分利用其数据进行可编程设计。


英特尔称,随着人工智能领域对复杂计算的需求增长,这款新芯片将可为大型公司使用的英特尔至强(Intel Xeon)处理器提供帮助。Facebook 已经开始使用该人工智能处理器。



英特尔 Nervana NNP-T


英特尔 Nervana NNP-T(神经网络训练处理器),又称 Spring Crest,将由台积电制造,并采用 16nm FF+工艺。



Nervana 在被英特尔收购之前,就已经利用台积电的 28nm 处理器构建起第一代 Lake Crest 设计。因此,作为相关设计规则与制造工艺的继承者,Spring Crest 当中仍然保留了不少台积电的专利成果。英特尔方面在新一代芯片中也继续沿用台积电的工艺,但同时将更多自己的专利成果整合到架构当中——包括功率控制与偏移技术——由此创造出这款集合了“英特尔最佳元素与 Nervana 最佳元素”的芯片。



NNP-T 的计算核心拥有 270 亿晶体管,包括 24 个 Tensor Processors(TPC)。除了 TPC 外,芯片裸片中还有 60MB 的 SRAM 以及一些专用的接口,如 IPMI、I2C 及 16 条 PCI-E 4.0 通道。芯片的工作频率为 1.1GHz,风冷条件下功率配置为 150W 到 250W,可通过水冷获得更强大的性能表现。同时 NNP-T 还拥有 OCP 卡及 PCI-E 两种规格,以供数据中心选择。



英特尔公司希望通过开源 nGraph 库以及负责将各框架连接至硬件后端的编译器,对大部分软件复杂性进行抽象。英特尔目前正在使用的框架包括 Paddle Paddle、Pytorch 以及 TensorFlow。


一级客户将拥有对底层硬件的访问权限,而其他“更为广泛”的客户将能够访问内核库。英特尔公司将在明年开放自己的高级编程语言,允许客户根据需求编写出自己的内核。此举的主要目标是实现简化,过高的复杂性最终必将占用掉宝贵的芯片面积。因此,自定义 ISA 将非常简单,确保英特尔将芯片区主要分配给乘法器与存储器。此外,芯片巨头还构建起独家深度学习原语指令。




英特尔公司表示,其将在今年年底之前向首批客户提供 NNP-T 样品,主要包括各一级云服务供应商。接下来,2020 年 NNP-T 产品将正式大规模投放市场。


写在后面


如今,人工智能与机器学习已经风靡数据中心,而随着以 AI 训练类工作负载为主体的各类解决方案的快速兴起,GPU 也开始成为超级计算领域一颗耀眼的新星。2008 年,还没有任何一台超级计算机使用 GPU 进行计算——其仍主要依靠久经考验的 CPU。但现在,全球超算五百强榜单当中,有 80%的计算能力由 GPU 贡献而来。相信很多朋友已经意识到,高性能计算与超级计算的发展方向正朝着更为广泛的数据中心移动,而 AI/ML 类工作负载的激增无疑将给英特尔在数据中心领域的主导地位构成严重威胁。毕竟,每安装一块 GPU,都会有几块至强处理器失去“工作岗位”。


英特尔副总裁兼人工智能产品集团总经理 Naveen Rao 表示,数据中心和云计算需要访问高性能和可扩展的通用计算,以及对复杂 AI 应用程序的专用加速。在未来的 AI 愿景中,需要采用“从硬件到软件再到应用程序”的整体方法。


本次英特尔推出的 Nervana 神经网络处理器,都将用于数据中心,NNP-T 用于云端训练,NNP-I 用于云端推理。而且就英特尔官方数据,NNP-I 在推理上的速度已经超过英伟达 Tesla P4,虽不及 V100,但差距不大。


尽管英特尔此次推出芯片的制作工艺还不是最先进的 7nm,在性能上也稍微有些不足,但英特尔的此次“亮剑”无疑给出一个强烈的信号——AI 硬件领域的竞争将会更加激烈。


2019 年 8 月 21 日 18:483207
用户头像
张之栋 InfoQ编辑

发布了 91 篇内容, 共 33.3 次阅读, 收获喜欢 151 次。

关注

评论

发布
暂无评论
发现更多内容

LeetCode题解:11. 盛最多水的容器,双循环暴力法,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

通过波士顿矩阵模型做产品定位

GuOjixIE

数据分析 产品定位 波士顿矩阵模型

如何让我的简历有价值、有亮点

escray

学习 面试 简历 面试现场

linux入门系列6--软件管理之rpm和yum仓库

黑马腾云

Linux centos 运维 rpm yum

基于Ambari的大数据平台搭建

数据社

大数据 hadoop ambari

设计模式-技术专题-建造者模式(Builder)

李浩宇/Alex

Java 设计模式

PM2 管理node.js开机自启动(非root用户)

openbytes

node.js

Spring-技术专题-Bean的生命周期简介

李浩宇/Alex

spring

MySQL视图介绍

Simon

MySQL

IOTA架构下的数据采集

易观大数据

区块链技术正向平台化、组件化、集成化演进

CECBC区块链专委会

大数据 区块链技术 科技

影响音视频延迟的关键因素(二): 采集、前处理、编解码

ZEGO即构

H264 API 3A算法

python自动生成一整月的排班表

openbytes

Python

质量门禁:Verigreen开启Git的Commit门禁

陈磊@Criss

哥尼斯堡七桥问题

InfoQ_aef2dd810f7f

LeetCode题解:66. 加一,倒序遍历+可中途退出,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

MySQL-长事务详解

Simon

MySQL mysql事务

揭秘MySQL主从数据不一致

Simon

MySQL 主从复制

火眼云CEO张陆鹏:A轮融资5000万,解密国内ABM生态首位玩家

ToB行业头条

王者荣耀为什么不使用微服务架构?

程序员生活志

因为套用这个模板,我成了公司最佳员工

华为云开发者社区

网站架构 华为云 网站搭建 匀速建站 SEO

更改用户host留下的坑

Simon

MySQL

提高GIT中代码质量的七点优秀实践

程序员生活志

git 经验总结

5. JsonFactory工厂而已,还蛮有料,这是我没想到的

YourBatman

Jackson Fastjson JSON库 JsonFactory

性能优化-技术专题-top和jstack分析高CPU问题

李浩宇/Alex

JVM

37岁程序员被裁,想用6月工资跪舔领导划掉被裁名额,结果蒙了!

程序员生活志

PHP中的错误和异常

书旅

php 异常 常见错误

关于自增id 你可能还不知道

Simon

MySQL MySQL自增ID

【Kafka】消费者客户端小结(java)

guoguo 👻

【数据结构与算法】用动图解说数组、链表、跳表原理与实现

三钻

数组 链表 数据结构与算法 跳表

一位男程序员的英语学习之路

盛安德软件

飞猪Flutter技术演进及业务改造的实践与思考

飞猪Flutter技术演进及业务改造的实践与思考

英特尔首款AI芯片终发布,云端训练推理两用,却不是7nm制作工艺-InfoQ