GMTC 全球大前端技术大会(北京站)门票 9 折特惠中,点击立减 ¥480 了解详情
写点什么

谷歌披露了 TensorFlow 处理器单元架构的细节

2017 年 5 月 16 日

本月早些时间谷歌进一步披露了更多关于一年前发布的TPU 的细节。TPU 项目和团队的高级架构师 Norm Jouppi 表示,与 Nvidia K80 Haswell E5-2699 V3 等主流高性能处理器相比,使用 TPU 执行神经网络计算可以获得成数量级的性能增益。Jouppi 说:

“据估计 TPU 会比 K80 GPU 和 Haswell CPU 快大概 15 倍到 30 倍……在 6 个神经网络用例中,有 4 个在 TPU 上是内存或带宽受限的,假如让 TPU 使用和 K80 GPU 一样的内存系统,那它就可以比 GPU 和 CPU 快 30 到 50 倍……在一个标准的效率指标功耗效率比(TOPS/Watt)测试中,TPU 的测试结果也比传统处理器高 30 到 80 倍。”

最早定制 ASIC 的动机来自于使用谷歌翻译 API 的计算需求,注意,假设这个地球上的每台手机每天都使用谷歌翻译 API 三分钟,那就得多搭建好几十个数据中心。

架构白皮书上记录了把K80 和E5-2699 作为计算核心进行一定范围内的神经网络计算时,相应的实验设计、数据收集和分析等细节。TPU 现在不是用于训练神经网络的。它最早就是用作矩阵乘法器,通过矩阵乘法器、板载内存和缓存系统一起,实现神经网络的多层功能。其中包括在各层之间保存感知器的输出和状态等,这些在MLP 和CNN 等内部都广为使用。

但TPU 并不仅仅限于神经网络的实现,它是通用的,它的架构是基于Jouppi 和团队研究的全面用例的。这么做的部分动机就是要支持TPU 的按时交付,还有必要的灵活性来优化矩阵浮点运算,而这也是芯片要执行的最基本的运算操作。而把TPU 和包含了应用程序所需的其它部件的CPU/GPU 架构结合起来很方便,只需要用上PCIe 总线就好了。

这样的架构让CPU/GPU 可以在神经网络的计算之外执行训练或TensorFlow 程序的任意部分。比如程序要提前加载数据,或者要把指令输入TensorFlow 运行等等,这些都要由CPU/GPU 管理并发给TPU。从这方面看,TPU 非常像显卡或 FPU

“TPU 像 CPU 或 GPU 一样都是可编程的。它并不专为某个神经网络模型设计,可以在多种网络上执行 CISC 指令(卷积、LSTM 模型、大型全连接模型等)。所以它是可编程的,但使用矩阵作为原语,而不是向量或标量。”

就像 CPU 和 GPU 架构的时变优化特性一样,TPU 具有确定性的特性,在功耗效率比的测试中 TPU 优于基准芯片及每秒千万亿次的超级计算机。据测试数据来看,TPU 在功耗效率比的测试中性能超出一般处理器 30 到 80 倍。

“与 K80 GPU 的 32 位浮点运算相比,TPU 使用的是 8 位收缩矩阵乘法器,消耗的能量少了几个数量级,压缩了25 倍的 MAC (65536 8 位对 2496 32 位)和 3.5 倍的板上内存(28MB 对 8MB)。更大的内存有助于增加应用程序的操作强度,让它们可以更充分地使用额外的 MAC……商业产品在计算架构上很少出现数量级的差别,因此 TPU 可能会成为专用领域架构的一个原型。”

作为实验设计研究阶段的一部分,Jouppie 和团队在谷歌的平台上研究了神经网络的使用,他们发现了更多关于时间敏感型应用的需求,而不是关于他们最初设想的吞吐量敏感型应用,这让他们意识到,对大量廉价资源的适当使用仍然可以得到性价比很高的高性能,这也符合阿姆达尔定律

TPU 实验涉及六种神经网络: MLP CNN LSTM 各两种。MLP 和 LSTM 都是内存受限型的,因此调整实验的内存和带宽排列对性能的影响非常大。这可能要归因于 MLP 和 CNN 会重用前层的权重,而且也会在一定程度上重用前层的输出。另一方面,LSTM 会在各个时间步长重用权重,但只会选择性地使用前层的输出,这样就会不受限于内存,更多地是受限于计算能力。这一点在考察 TPU 使用的 PCIe 总线 IO 带宽时也适用。

经过 15 个月多的开发周期,以及在假设以 TPU 为核心的架构上对内存和缓存的改进,Jouppie 和团队声称他们已经获得了比 K80 和 E5-2699 性能高 30 到 50 倍的成绩。

阅读英文原文 TensorFlow Processor Unit Architecture

2017 年 5 月 16 日 19:001907
用户头像

发布了 152 篇内容, 共 59.1 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

java 后端博客系统文章系统——No6

猿灯塔

第六周作业

晨光

继 GitHub、Twitter 后,Linux 内核废止 master/slave

神经星星

GitHub Linux 程序员 Linux Kenel 技术平权

字节跳动基于Flink的MQ-Hive实时数据集成

Apache Flink

flink

官方剧透:1.11 发版前我们偷看了 Flink 中文社区发起人的聊天记录

Apache Flink

flink

聊聊Dubbo(一):为何选择

猿灯塔

第六章总结

武鹏

华为云MVP朱有鹏:做IoT开发乐趣无穷,年轻开发者更要厚积薄发

华为云开发者社区

人工智能 物联网中台 物联网 IoT 华为云

CAP原理之个人见解

潜默闻雨

用AI的线团,解开金融行业的米拉诺斯迷宫

脑极体

“区块链+政务” 将如何前行,接下政务信息化改革接力棒还欠火候

CECBC区块链专委会

第六章作业

武鹏

week6 学习总结

任小龙

极客大学架构师训练营

week06作业

Safufu

架构师训练营——第6周作业

jiangnanage

分布式总结

周冬辉

nosql zookeeper 分布式 CAP原理

极客大学架构师训练营0期第六周作业2

Nan Jiang

给技术同学的建议:人人都该懂的埋点知识

易观大数据

第六周总结

晨光

第六周·命题作业·CAP原理

刘璐

架构师训练营第六周 - 总结

Larry

未来已至,持续学习让我们更好的生存

七镜花园-董一凡

学习 生活

架构师训练营第六章作业

吴吴

Doris服务节点临时失效处理过程时序图

任小龙

极客大学架构师训练营

第六周作业

Larry

第六章学习总结

李白

架构师训练营第六章总结

吴吴

总结

东哥

联想ThinkSystem服务器,企业智能化考验下的极限应考

脑极体

信创舆情一线--英国禁用华为5G设备

统小信uos

5G

缓存穿透、缓存击穿、缓存雪崩,看这篇就够了

码农神说

缓存 缓存穿透 缓存击穿 缓存雪崩 数据缓存

DIY 的 Kubernetes 集群的稳定性保障实践

DIY 的 Kubernetes 集群的稳定性保障实践

谷歌披露了TensorFlow处理器单元架构的细节-InfoQ