写点什么

微软开源 ONNX Runtime 模型以加速 Google BERT

  • 2020-01-22
  • 本文字数:979 字

    阅读完需:约 3 分钟

微软开源ONNX Runtime模型以加速Google BERT

微软人工智能研究院 1 月 21 日称计划开源 BERT 自然语言模型优化版本,该模型可以与 ONNX Runtime 推理引擎配合使用。在为 Bing 搜索引擎提供语言表达功能时,Microsoft 使用相同的模型来降低 BERT 的延迟。该模型“为 Bing 用户带来了最佳搜索体验” ,去年秋天发表的一篇论文中对该模型进行了详细介绍。



论文地址:https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/


公司发言人表示,这意味着开发人员可以使用 ONNX Runtime 和 Nvidia V100 GPU 大规模部署 BERT,而延迟只有 1.7 毫秒,这样的性能表现过去只能在大型科技公司中实现。


2017 年,微软与 Facebook 合作创建了 ONNX,以推动跨 AI 硬件(如半导体)和软件(如机器学习框架)之间的互操作性。BERT 优化工具增加了许多 ONNX Runtime 加速器,例如 Nvidia TensorRT 和英特尔 OpenVINO。使用 ONNX 标准意味着优化后的模型可以与 PyTorch,TensorFlow 和其他流行的机器学习模型一起运行,这种改善是得益于 Azure AI 与微软 AI 研究院的合作。


“由于 BERT 模型主要由堆叠 Transformer 单元组成,因此我们通过将多个基本运算符的关键子图融合到 CPU 和 GPU 的单个内核(包括自注意力层、LayerNormalization 和 Gelu 层)中来优化每个单元。微软高级项目经理 Emma Ning 在博客中称:“这大大减少了许多基本计算之间的内存复制。”



对于微软来说,这是其在自然语言领域取得的最新突破,但这并不是业界第一次尝试优化 BERT。大约一年前,Microsoft AI 研究人员还发布了 MT-DNN,一款基于 Transformer 提升 GLUE 语言模型性能基准的模型。


一位业内人士称,通过使用像 BERT 和 MT-DNN 等基于 Transformer 的模型,使自然语言模型在文本生成等任务中表现更优越,是 2019 年 AI 取得的最大成就之一。



微软在其他自然语言开发上也取得了一定进展。在 2019 年温哥华 NeurIPS 上,微软和浙江大学联合发布了语音合成系统 FastSpeech,与自回归的 Transformer TTS 相比,FastSpeech 将梅尔谱的生成速度提高了近 270 倍,将端到端语音合成速度提高了 38 倍,单 GPU 上的语音合成速度达到了实时语音速度的 30 倍。 在 2019 年夏季,微软还推出了会话 AI 助手工具包 Icecaps。


原文链接:


https://venturebeat.com/2020/01/21/microsoft-open-sources-onnx-runtime-model-to-speed-up-googles-bert/


2020-01-22 13:355423

评论

发布
暂无评论
发现更多内容

MASA Stack 1.0 发布会 —— 社区问题解答

MASA技术团队

.net stack 应用现代化 MASA

Python 内置界面开发框架 Tkinter入门篇 丙

eng八戒

Python GUI tkinter

GuitarPro2024免费版吉他打谱工具

茶色酒

GuitarPro

面试必问:JVM 如何确定死亡对象?

王磊

java面试

有了瓴羊Quick BI,企业再也不必担心可视化分析情况

小偏执o

利用DUCC配置平台实现一个动态化线程池

京东科技开发者

spring 多线程 代码 动态线程池 ducc

自媒体营销或已死,内容营销为何越来越难做?

石头IT视角

极客时间运维进阶训练营第十四周作业

9527

大规模即时云渲染技术,追求体验与成本的最佳均衡

阿里云CloudImagine

云计算 云渲染 云庙会

炸了!3年图片都没了

艾小仙

2023-02-15:商场中有一展柜A,其大小固定,现已被不同的商品摆满, 商家提供了一些新商品B,需要对A中的部分商品进行更新替换, B中的商品可以自由使用,也就是可以用B中的任何商品替换A中的任何

福大大架构师每日一题

算法 rust 福大大

CleanMyMacX4.12.5中文版苹果电脑管家

茶色酒

CleanMyMacX4.12.5

EasyRecovery2023新版本有哪些新功能?

茶色酒

EasyRecovery EasyRecovery15 easyrecovery2023

ChatGPT入门案例|商务智能对话客服(二)| 社区征文

TiAmo

openai ChatGPT

更专业、安全、可控!政企都选择WorkPlus私有化部署

BeeWorks

多款社交黑马海外霸榜,融云全球通信服务护航登顶

融云 RongCloud

黑龙江哈尔滨市等保测评机构有五家啦!名单看这里!

行云管家

等保 机构 等保测评 哈尔滨

飞桨特色产业级模型库助力AI开发与落地更简单

飞桨PaddlePaddle

paddle 开源 模型 飞桨

Maven Shade插件relocation修改类常量的问题

Laughing

Java 后端 Maven-Shade-Plugin RelocationClass

WorkPlus即时通讯集成工作平台,提效企业一体化管控

BeeWorks

Python 内置界面开发框架 Tkinter入门篇 丁

eng八戒

Python GUI tkinter

我不想再传递 nameof 了

newbe36524

C# Docker Kubernetes

电阻为什么都是4.7kΩ、5.1kΩ,而不是整数5kΩ?

元器件秋姐

科普 元器件 元器件知识 电阻 电阻值

QCon演讲实录(下):多云管理关键能力实现与解析-AppManager

阿里云大数据AI技术

大数据 运维 多云服务 多云管理

什么是网关型堡垒机?与运维审计堡垒机有什么区别?

行云管家

堡垒机 堡垒机网络安全

使用自定义的初始化方法宏(OC)

刿刀

飞桨框架v2.4 API新升级!全面支持稀疏计算、图学习、语音处理等任务

百度Geek说

API 框架 3D点云 企业号 2 月 PK 榜 Sparse Transformer

拥有了瓴羊Quick BI,企业的数据分析变得更好

巷子

国际财务系统基于ShardingSphere的数据分片和一主多从实践

京东科技开发者

数据库 数据分片 ShardingSphere 企业号 2 月 PK 榜 一主多从

ChatGPT这波热潮会不会让我失业?

eng八戒

人工智能 AI 聊天机器人 openai ChatGPT

使用了瓴羊Quick BI,数据分析的效率有效提升

夏日星河

微软开源ONNX Runtime模型以加速Google BERT_文化 & 方法_KHARI JOHNSON_InfoQ精选文章