NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

英特尔发布 nGraph 编译器堆栈 Beta 版本,性能可提升 45 倍

  • 2018-12-04
  • 本文字数:1236 字

    阅读完需:约 4 分钟

英特尔发布nGraph编译器堆栈Beta版本,性能可提升45倍

深度学习计算性能对于科学家和工程师来说至关重要,他们需要利用深度学习技术来应对医疗、上午、自动驾驶等诸多领域的挑战。这也是英特尔今年 3 月份将 nGraph 库和编译器的早期版本在 GitHub 上开源的原因。 我们很早就清楚地看到,开放标准和互操作性的横向协作对于帮助科学家和工程师在各自领域实现下一波突破至关重要。英特尔内部的很多研究人员已经开始使用 nGraph 探索更前沿的 AI 话题,比如使用同态加密使基于私有数据的推理成为可能。


我们将在今天正式发布:nGraph编译器堆栈的Beta版本。这一版本侧重于加速英特尔®至强®可扩展处理器上的深度学习推理工作负载,并具有以下主要特性:


  • 为 TensorFlow、MXNet 和 ONNX 提供开箱即用的安装体验。

  • 对 TensorFlow 中可用的 20 个常见工作负载、MXNet 中的 18 个常见工作负载、ONNX 中的 14 个常见工作负载做了优化并对优化效果做了验证。

  • 支持Ubuntu 16.04(TensorFlow、MXNet 和 ONNX)和 MacOS X 13.x 版本(支持 TensorFlow 和 MXNet 构建)。


这一版本对已经在生产环境中广泛部署的一些常见工作负载均做了优化。这些工作负载涵盖了各种类型的深度学习,包括:


  • 图像识别和分割

  • 物体检测

  • 语言翻译

  • 语音生成和识别

  • 推荐系统

  • 对抗生成网络(GAN)

  • 强化学习


图1 使用nGraph对MXNet推理性能的提升效果


图 1 使用 nGraph 对 MXNet 推理性能的提升效果


在我们的测试中,优化后的工作负载最多可以比原生框架快 45 倍,并且我们期望通过下面描述的强大的模式匹配功能来提升其他工作负载的性能。


传统上,为了从硬件中获得更高的深度学习性能,用户必须等待硬件制造商创建并更新内核库,这些内核库能在“立即模式”执行接口中公开(有时需要手动调整)各个操作。虽然这些内核优化通常会带来惊人的性能提升,但它们往往是基于特定硬件的,这就预先消除了在非特定设备上优化的任何机会。通过匹配非特定设备和特定设备的优化,我们可以解锁更多性能提升的可能,这就是我们构建 nGraph 编译器的原因。



在我们发布的 Beta 版本中有许多关键特性:nGraph 是第一个同时支持训练和推理支持多个框架的图形编译器;它允许开发人员将同一概念模型或算法设计自由地用在不同硬件后端。 这些特性中的任何一个可能都已经足够好;综合起来,这些特性使开发人员确信他们的神经网络(NN)设计不仅可以不断扩展,而且还能适应各种变化因素。未来,适应性将变得越来越重要,对于开发人员来说,要提前猜到后续可能需要大量或复杂优化的机器学习问题的界限将越来越困难。


在我们计划于 2019 年 Q2 初发布的 Gold 版本中,我们将进一步扩大更多框架上工作负载的覆盖范围,包括对量化图和 Int8 格式的额外支持。我们设计 nGraph 编译器以支持不断增加的 AI 硬件列表,因此英特尔®Nervana™神经网络处理器和其他加速器的早期采用者将能够在整个 2019 年使用 nGraph 编译器进行测试。更多详细信息,请参阅我们的生态系统文档。我们建议你查阅我们的快速入门指南或下载最新版本的 nGraph,如果有任何反馈或评论,欢迎你在GitHub上告诉我们。


阅读英文原文:nGraph Compiler Stack–Beta Release



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-12-04 13:451034
用户头像
蔡芳芳 InfoQ主编

发布了 781 篇内容, 共 496.1 次阅读, 收获喜欢 2749 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

2023年Java面试正确姿势(1000+面试题附答案解析)

Java编程日记

Java 架构 后端 java程序员 java面试

IoT企业物联网平台,从设备端到云端业务系统全链路开发实战——实践类

阿里云AIoT

数据库 监控 物联网 存储 消息中间件

建议收藏!数据可视化大屏设计必备步骤

葡萄城技术团队

CVE-2023-23752 Joomla未授权访问漏洞分析

墨菲安全

漏洞分析 软件供应链安全

软件供应链受威胁下的应对方法——供应链安全管理平台的五大工具能力

墨菲安全

SCA 供应链安全

一图读懂 | ChatGPT热潮背后,金融行业大模型应用路在何方?——金融行业大模型应用探索

易观分析

金融 科技

如何通过Java 代码设置 Word 文档页边距

在下毛毛雨

C# .net word文档 页边距

行业分析| OA系统中的实时通讯

anyRTC开发者

音视频 远程办公 视频会议 视频通话 OA

经常会采坑的javascript原型应试题

loveX001

JavaScript 前端

聊聊 HTAP 的前世今生

墨天轮

数据库 OLAP TiDB OLTP HTAP

工业数字孪生:西门子工业网络与设备虚拟调试案例(TIA+MCD+SINETPLAN)

工赋开发者社区

设备上报二进制数据在 IoT 平台解析实践——实践类

阿里云AIoT

小程序 监控 物联网 传感器 测试技术

ZBC通证月内已翻倍,Nautilus Chain 上线前夕的“开门红”

西柚子

大前端CPU优化技术--SIMD技术

江湖修行

simd neon

代码的发展与终结

SoFlu软件机器人

ChatGPT专题 | 万字长文解析!复现和使用GPT-3/ChatGPT,你所应该知道的

工赋开发者社区

和狂飙的 ChatGPT 聊聊软件开发的现在与未来

极狐GitLab

DevOps 研发效能 DevSecOps 极狐GitLab ChatGPT

用户属性-MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 2 月 PK 榜 用户属性

云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

华为云开发者联盟

大数据 数据分析 华为云 企业号 2 月 PK 榜 华为云开发者联盟

数字经济赋能乡村建设,助力乡村全面振兴

加入高科技仿生人

低代码 数字经济 乡村振兴 农村

低代码选型,论协同开发的重要性

葡萄城技术团队

社招前端二面面试题总结

loveX001

JavaScript 前端

深入理解JS作用域链与执行上下文

loveX001

JavaScript

当 Amazon Lambda 遇上 Apache APISIX 可以擦出什么火花?

API7.ai 技术团队

AWS api 网关 Lambda s APISIX

基于 IoT物联网 + 表格存储DB + DataV 搭建实时环境监控大屏——实践类

阿里云AIoT

数据库 监控 物联网 存储 数据可视化

AntDB数据库再获奖,亚信安慧被评为“2022 PostgreSQL中国最佳创新企业”

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库 企业号 2 月 PK 榜

IoT物联网设备端硬件上云技术方案详解——实践类

阿里云AIoT

物联网 存储 开发工具 数据采集 传感器

0经验拿下大厂年薪30万Offer,我的面试求职之路(含面试题)~

霍格沃兹测试开发学社

Tapdata 和 Databend 数仓数据同步实战

Databend

测试开发 | Dubbo 接口测试技术,测试开发进阶必备(附源码)

霍格沃兹测试开发学社

LeetCode题解:89.格雷编码,归纳法,详细注释

Lee Chen

JavaScript LeetCode

英特尔发布nGraph编译器堆栈Beta版本,性能可提升45倍_硬件_Harry Kim_InfoQ精选文章