超BERT 24倍！英伟达发布有史以来最大NLP模型MegatronLM-InfoQ

「如何实现流动式软件发布」线上课堂开课啦，快来报名参与课堂抽奖吧~ 了解详情 



 写点什么

8 月 13 日，InfoQ 从英伟达方面获悉，其用于开发和运行可理解和响应请求的对话式 AI 的 GPU 强化平台，已经达成了一些重要的里程碑，并打破了若干新记录，其 AI 平台目前拥有迄今为止最快的训练记录、最快的推断速度和最大的训练模型。

最快的训练速度：

英伟达的 AI 平台仅需 53 分钟就能够完成模型训练，经过训练的模型在短短 2 毫秒多一点的时间里（10 毫秒在业内被认为是高水平线）就能够成功地做出推理（即利用通过训练学习到的能力得出结果），这创造了新的记录。

英伟达能够使用优化的 PyTorch 软件和超过 1000 个 GPU 的 DGX-SuperPOD 训练 BERT-Large ，能够在 53 分钟内训练 BERT。

“如果没有这种技术，训练其中一种大型语言模型可能需要数周时间” ，英伟达应用深度学习副总裁 Bryan Catarazano 表示。

最快的推理时间

英伟达称，通过运行 Tesla T4 GPU 和针对数据中心推理优化的 TensorRT 5.1 上运行数据中心推理，它已经实现了最快的 BERT 推理时间 —— 2.2 毫秒。Catarazano 表示，当 CPU 服务时，BERT 推理最多需要 40 毫秒，而现在的许多会话式人工智能操作会在 10 毫秒内完成。

有史以来最大 NLP 模型

除了上述记录，英伟达还发布了全球最大的基于 Transformer 的 NLP 模型——MegatronLM（威震天）。“威震天” 使用了 83 亿个参数，其大小是 BERT-Large（当前最大的核心 BERT 模型，BERT 是世界上最先进的人工智能语言模型之一，也被广泛认为是 NLP 标杆的先进模型）的 24 倍，比 OpenAI 的 GPT—2 大 5 倍。

所有实验是在英伟达的 DGX SUperPOD 上进行的。这项工作中，英伟达在现有的深度学习硬件，软件和模型之上构建了世界上最大的基于 Transformer 的语言模型，在具有 8 路模型并行性的 512 个 NVIDIA V100 GPU 上有效地训练了一个 83 亿参数语言模型，并在整个应用程序中实现高达 15.1 PetaFLOPS。

通过实施简单有效的模型并行方法，英伟达成功地超越了传统单 GPU 训练所带来的限制，只对现有 PyTorch 变换器实现进行了少量有针对性的修改。

这些代码使用本机 Python 编写，易于运行，利用混合精度培训，并利用 NCCL 库在 GPU 之间进行通信。由于缩放比例较弱，英伟达发现越来越大的变压器模型可以在相同的时间内训练，与较小的变压器相比，可以显着提高性能。

大规模语言建模对于诸如文章补全、问答和对话系统等 NLP 任务非常有用，训练最大的神经语言模型是推进 NLP 应用程序最先进技术的最佳方式。“大型语言模型正在为自然语言革新人工智能“，Catarazano 表示，”他们正在帮助我们解决异常困难的语言问题，使我们更接近真正对话 AI 的目标 ” 。

代码已在 Github 中开源

英伟达已经在 Github 中开源了上述每项专长的代码，以帮助 AI 从业者和研究人员探索创建大型语言模型或加速 GPU 的推广或推理。

开源地址：https://github.com/NVIDIA/Megatron-LM

GPU 还帮助微软的 Bing 改善搜索结果，Bing 使用英伟达硬件将延迟时间缩短了一半。微软必应集团项目经理表示，与基于 CPU 的平台相比，在使用 Azure NVIDIA GPU 进行推理时，微软实现了 2 倍的延迟减少和 5 倍的吞吐量改进。

通过为其 AI 平台和 GPU 添加关键优化，英伟达的目标是成为会话式人工智能服务的主要提供商。现在英伟达打破了实时会话 AI 记录，谷歌 XLNet、微软 MT-DNN、Facebook 的 RoBERTa 等竞争对手有压力了。

参考链接：

https://nv-adlr.github.io/MegatronLM

发布

暂无评论

创作场景

超 BERT 24 倍！英伟达发布有史以来最大 NLP 模型 MegatronLM

最快的训练速度：

最快的推理时间

有史以来最大 NLP 模型

代码已在 Github 中开源

评论

首个区块链金融应用规范出炉，标准先行避免“先污染后治理”

ARTS 打卡（2020.07.13-2020.07.19）

架构师训练营第八周课后题

产业区块链一周新动态

第八周学习总结

设计数据库

数据结构和算法-链表

第8周作业

Java有效面试题

AI与劳模的交点：拼多多农研大赛释放的产业能量

程序的机器级表示-访问数据

ARTS打卡第9周

ARTS 打卡第 4 周

java并发系列：实战篇，微服务日志的伤痛，一并帮你解决掉

LeetCode题解： 206. 反转链表，JavaScript，容易理解的递归解释，详细注释

架构师训练营第八周课后总结

“链”上普洱，云南省区块链中心走进大美普洱

安全系列之——手写JAVA加密、解密

周末在家加班开发代扣支付网关！

ARTS Week9

第八周作业

全栈新星 -- Dart

从零开始写一个迷你版的Tomcat

应用程序研发之网络-分层模型

Spark 窗口函数 I

8week

架构师课程第八周作业

【架构师训练营 - 作业 -8】

C++编译过程宏内联和静态变量

JDK1.8新特性(六)：Stream的终极操作，轻松解决集合分组、汇总等复杂操作

Java面试胜经001| 阿里Java面试题118道

创作场景

超 BERT 24 倍！英伟达发布有史以来最大 NLP 模型 MegatronLM

最快的训练速度：

最快的推理时间

有史以来最大 NLP 模型

代码已在 Github 中开源

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载