2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

微软开源 ONNX Runtime 模型以加速 Google BERT

  • 2020-01-22
  • 本文字数:979 字

    阅读完需:约 3 分钟

微软开源ONNX Runtime模型以加速Google BERT

微软人工智能研究院 1 月 21 日称计划开源 BERT 自然语言模型优化版本,该模型可以与 ONNX Runtime 推理引擎配合使用。在为 Bing 搜索引擎提供语言表达功能时,Microsoft 使用相同的模型来降低 BERT 的延迟。该模型“为 Bing 用户带来了最佳搜索体验” ,去年秋天发表的一篇论文中对该模型进行了详细介绍。



论文地址:https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/


公司发言人表示,这意味着开发人员可以使用 ONNX Runtime 和 Nvidia V100 GPU 大规模部署 BERT,而延迟只有 1.7 毫秒,这样的性能表现过去只能在大型科技公司中实现。


2017 年,微软与 Facebook 合作创建了 ONNX,以推动跨 AI 硬件(如半导体)和软件(如机器学习框架)之间的互操作性。BERT 优化工具增加了许多 ONNX Runtime 加速器,例如 Nvidia TensorRT 和英特尔 OpenVINO。使用 ONNX 标准意味着优化后的模型可以与 PyTorch,TensorFlow 和其他流行的机器学习模型一起运行,这种改善是得益于 Azure AI 与微软 AI 研究院的合作。


“由于 BERT 模型主要由堆叠 Transformer 单元组成,因此我们通过将多个基本运算符的关键子图融合到 CPU 和 GPU 的单个内核(包括自注意力层、LayerNormalization 和 Gelu 层)中来优化每个单元。微软高级项目经理 Emma Ning 在博客中称:“这大大减少了许多基本计算之间的内存复制。”



对于微软来说,这是其在自然语言领域取得的最新突破,但这并不是业界第一次尝试优化 BERT。大约一年前,Microsoft AI 研究人员还发布了 MT-DNN,一款基于 Transformer 提升 GLUE 语言模型性能基准的模型。


一位业内人士称,通过使用像 BERT 和 MT-DNN 等基于 Transformer 的模型,使自然语言模型在文本生成等任务中表现更优越,是 2019 年 AI 取得的最大成就之一。



微软在其他自然语言开发上也取得了一定进展。在 2019 年温哥华 NeurIPS 上,微软和浙江大学联合发布了语音合成系统 FastSpeech,与自回归的 Transformer TTS 相比,FastSpeech 将梅尔谱的生成速度提高了近 270 倍,将端到端语音合成速度提高了 38 倍,单 GPU 上的语音合成速度达到了实时语音速度的 30 倍。 在 2019 年夏季,微软还推出了会话 AI 助手工具包 Icecaps。


原文链接:


https://venturebeat.com/2020/01/21/microsoft-open-sources-onnx-runtime-model-to-speed-up-googles-bert/


2020-01-22 13:355646

评论

发布
暂无评论
发现更多内容

网站开发进阶(六十一)详解js中Number()、parseInt()和parseFloat()的区别

No Silver Bullet

5月月更 Number() parseInt() parseFloat()

java培训Nginx 快速入门

@零度

JAVA开发

三大特性,多个场景,Serverless 应用引擎 SAE 全面升级

阿里巴巴云原生

阿里云 Serverless SAE 阿里云云原生 应用引擎

【大数据培训】面试中数据仓库重要概念

@零度

数据仓库 大数据开发

Autograd解析|OneFlow学习笔记

OneFlow

人工智能 深度学习 数学原理 Autograd模块

租房开放源码

源字节1号

租房小程序

C++搭建集群聊天室

爱好编程进阶

Java 程序员 后端开发

Java8--Lambda表达式对List集合操作

爱好编程进阶

Java 程序员 后端开发

答题交互功能深入研究

CRMEB

【直播回顾】OpenHarmony知识赋能五期第四课——子系统音频解读

OpenHarmony开发者

OpenHarmony 多媒体

Java 四种线程池

爱好编程进阶

Java 程序员 后端开发

Java---多态

爱好编程进阶

Java 程序员 后端开发

云原生小课堂 | 如何打造一款软硬兼施、多功能、零损耗的云原生网络方案

York

云原生 性能 智能网卡vpc 容器网络方案

从服务端生成Excel电子表格(GcExcel + SpreadJS)

葡萄城技术团队

服务器端开发 前端表格控件 测试比较

20年清华扫地僧,整理的Storm、Spark学习笔记

爱好编程进阶

Java 程序员 后端开发

IntelliJ IDEA创建基于maven的springboot项目

爱好编程进阶

Java 程序员 后端开发

基于Saga的分布式事务调度落地

百度Geek说

微服务

Java面试比较---谈谈你对面向对象的理解,什么是面向对象?

爱好编程进阶

Java 程序员 后端开发

JMH性能测试,试试你代码的性能如何

爱好编程进阶

程序员 后端开发

前端生成PDF,让后端刮目相看

葡萄城技术团队

PDF pdf.js

从服务端生成Excel电子表格(Node.js+SpreadJS)

葡萄城技术团队

SpreadJS 前端表格

web前端培训单元测试入门知识分享

@零度

单元测试 web前端开发

封装格式介绍

Loken

音视频 5月月更

Java Review(三十九、类加载机制与反射

爱好编程进阶

Java 程序员 后端开发

java 中异常类

爱好编程进阶

Java 程序员 后端开发

2022“星课堂”直播课,开课啦!

星环科技

浅析微服务全链路灰度解决方案

阿里巴巴云原生

阿里云 微服务 云原生 灰度

探讨企业知识管理的困惑

小炮

企业知识管理

Apache ShardingSphere 遇上得物“彩虹桥”

SphereEx

数据库 开源 ShardingSphere SphereEx apache 社区

Elasticsearch聚合学习之一:基本操作

爱好编程进阶

Java 程序员 后端开发

JSON和JSONP对比

爱好编程进阶

Java 程序员 后端开发

微软开源ONNX Runtime模型以加速Google BERT_文化 & 方法_KHARI JOHNSON_InfoQ精选文章