Facebook基于十亿单词量构建了一个高效的神经网络模型-InfoQ

使用神经网络进行序列预测是众所周知的计算机科学问题，在语音识别、机器翻译、语言建模和其他领域中都有着广泛的应用。这种预测使用的模型对计算能力要求很高，这限制了它们的实际应用。

Facebook AI Research 的科学家设计了自适应的softmax 算法，这是一种为GPU 定制的近似算法，可在庞大的单词量基础上高效地训练神经网络。如公开发表的论文中所描述的，自适应softmax 利用单词在大语料库中的不均衡分布，形成可以最小化计算复杂度的群集。完全softmax 与词汇库大小线性相关，而自适应softmax 是次线性相关的，并且针对GPU 进行了优化。

在开发softmax 的同时，Facebook 研究人员发布了开源库 torch-rnnlib ，帮助研究人员设计和测试 GPU 中的递归模型。有了 torch.cudnn ，可以使用 NVIDIA CUDA Deep Neural Network 库轻松访问基线。 RNN 、 LSTM 、 GRU 和其他递归神经网络都有具体的实现，研究人员可以很容易地把它们用于递归神经网络的设计。

Facebook 研究人员在单个 GPU 上对该算法进行测试，速度达到了每秒 12500 个单词，同时保持精确度接近完全 softmax。从基准困惑度来看，谷歌公司的 Jozefowicz 等人在 2016 年使用 32 个 GPU 训练了 3 个星期得到 30 的困惑度（越低越好），同时使用 18 个 GPU 训练了几天得到 44 的困惑度。Google 使用 Tensorflow 实现的 LSTM 模型发布在 Github 上，它的主要作者在 Reddit 的相关话题中提出了一个有趣的方法来解释困惑度。相反地，自适应 softmax 可以在大约 14 小时内达到 50 的困惑度，在一两天内达到 43.9 的困惑度以及在六天内达到 39.8 的困惑度。如果没有 CuDNN 库，性能下降约 30％。所有工具和技术都针对 EuroParl 和十亿字语料库进行过测试，这些语料库是当前可获得的最大的几个语料库。

查看英文原文： Facebook Builds an Efficient Neural Network Model over a Billion Words

感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

评论

发布

暂无评论

粉丝求助：JAVA程序员，4年了，很迷茫，希望前辈可以给指出一个技术路线和需掌握的知识技能树；

Java架构师迁哥

Istio 1.8 发布——用户至上的选择

开源云原生 Service Mesh istio

JVM入门，认识Class文件

JVM Java 分布式

架构师Week5作业

涛涌天际，水利万物：黄浦江畔读懂城市智能体

架构师训练营第九周作业

极客大学架构师训练营

UNISKIN COO Kevin|营销数字化：数据沉淀和数据系统化运营一定要趁早！

营销数字化客户数据平台 CDP

公众号高频被调整，它不是企业生产文章的机器

客户数据平台 CDP 私域流量

【云图说】第189期初识数据仓库服务

华为云开发者社区

数据库数据仓库数据

力扣（Leetcode）练习--给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素的相对顺序

甲方日常 54

工作随笔杂谈日常

深入浅出 Go - sync.Map 源码分析

MySQL主从数据库没有同步怎么办？

MySQL 数据库分布式微服务

一致性hash算法

大四女学霸社招竟成功签约字节跳动，拿下30万年薪？

Java架构师迁哥

架构师Week5总结

SQL数据库:GROUPING运算符

大规模数据处理学习者

GROUPING运算符

如何在 vuePress中添加博客导流公众号-即输入验证码解锁全站文章

vuepress 解锁文章博客引流建站

《迅雷链精品课》第五课：账户与账本

亚马逊全球百万钜惠引爆“黑五” 跨境狂欢“巅峰6日”震撼登场

OpenFeign和Consul爱恨交织的两天

Spring Cloud Consul OpenFegin spring 5

LAXCUS大数据集群操作系统挖矿

大数据分布式计算挖矿

深入浅出 Go - sync.Once 源码分析

面试题总结--HashMap、Volatile相关

KubeVela 正式开源：一个高可扩展的云原生应用平台与核心引擎

阿里巴巴云原生

阿里云开源 Kubernetes 云原生 OAM

《Python程序员面试算法宝典》PDF 超清版免费领取

Python 面试算法

阿里作为内部参考的Redis文档现在开放下载，姐夫半夜不睡都在看

Java redis 学习编程面试

京东开发4年，想要跳槽去拼多多，落泪四4面，这年头跳槽可真难啊（还好不是裸辞）

马士兵老师

架构面试编程语言 Java 面试 java架构师

某美团程序员爆料:筛选简历时,用go语言的基本不看!网友:当韭菜还当出优越感了!

Java架构师迁哥

苹果首发ARM架构电脑芯片，将对PC格局带来哪些影响？

深入理解h2和r2dbc-h2

程序那些事

响应式编程 R2DBC 程序那些事响应式架构 r2dbc-h2

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望