写点什么

Facebook 基于十亿单词量构建了一个高效的神经网络模型

2016 年 12 月 21 日

使用神经网络进行序列预测是众所周知的计算机科学问题,在语音识别、机器翻译、语言建模和其他领域中都有着广泛的应用。这种预测使用的模型对计算能力要求很高,这限制了它们的实际应用。

Facebook AI Research 的科学家设计自适应的softmax 算法,这是一种为GPU 定制的近似算法,可在庞大的单词量基础上高效地训练神经网络。如公开发表的论文中所描述的,自适应softmax 利用单词在大语料库中的不均衡分布,形成可以最小化计算复杂度的群集。完全softmax 与词汇库大小线性相关,而自适应softmax 是次线性相关的,并且针对GPU 进行了优化。

在开发softmax 的同时,Facebook 研究人员发布了开源库 torch-rnnlib ,帮助研究人员设计和测试 GPU 中的递归模型。有了 torch.cudnn ,可以使用 NVIDIA CUDA Deep Neural Network 库轻松访问基线。 RNN LSTM GRU 和其他递归神经网络都有具体的实现,研究人员可以很容易地把它们用于递归神经网络的设计。

Facebook 研究人员在单个 GPU 上对该算法进行测试,速度达到了每秒 12500 个单词,同时保持精确度接近完全 softmax。从基准困惑度来看,谷歌公司的 Jozefowicz 等人在 2016 年使用 32 个 GPU 训练了 3 个星期得到 30 的困惑度(越低越好),同时使用 18 个 GPU 训练了几天得到 44 的困惑度。Google 使用 Tensorflow 实现的 LSTM 模型发布在 Github 上,它的主要作者在 Reddit 的相关话题中提出了一个有趣的方法来解释困惑度。相反地,自适应 softmax 可以在大约 14 小时内达到 50 的困惑度,在一两天内达到 43.9 的困惑度以及在六天内达到 39.8 的困惑度。如果没有 CuDNN 库,性能下降约 30%。所有工具和技术都针对 EuroParl 十亿字语料库进行过测试,这些语料库是当前可获得的最大的几个语料库。

查看英文原文 Facebook Builds an Efficient Neural Network Model over a Billion Words


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016 年 12 月 21 日 18:001454
用户头像

发布了 22 篇内容, 共 37838 次阅读, 收获喜欢 2 次。

关注

评论

发布
暂无评论
发现更多内容

粉丝求助:JAVA程序员,4年了,很迷茫,希望前辈可以给指出一个技术路线和需掌握的知识技能树;

Java架构师迁哥

Istio 1.8 发布——用户至上的选择

Jimmy Song

开源 云原生 Service Mesh istio

JVM入门,认识Class文件

Simon郎

JVM Java 分布式

架构师Week5作业

lggl

作业

涛涌天际,水利万物:黄浦江畔读懂城市智能体

脑极体

架构师训练营第九周作业

我是谁

极客大学架构师训练营

UNISKIN COO Kevin|营销数字化:数据沉淀和数据系统化运营一定要趁早!

Linkflow

营销数字化 客户数据平台 CDP

公众号高频被调整,它不是企业生产文章的机器

Linkflow

客户数据平台 CDP 私域流量

【云图说】第189期 初识数据仓库服务

华为云开发者社区

数据库 数据仓库 数据

力扣(Leetcode)练习--给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序

Wynne

甲方日常 54

句子

工作 随笔杂谈 日常

深入浅出 Go - sync.Map 源码分析

哈希说

golang

MySQL主从数据库没有同步怎么办?

冰河

MySQL 数据库 分布式 微服务

一致性hash算法

天涯若海

大四女学霸社招竟成功签约字节跳动,拿下30万年薪?

Java架构师迁哥

架构师Week5总结

lggl

总结

SQL数据库:GROUPING运算符

大规模数据处理学习者

GROUPING运算符

如何在 vuePress中添加博客导流公众号-即输入验证码解锁全站文章

itclanCoder

vuepress 解锁文章 博客引流 建站

《迅雷链精品课》第五课:账户与账本

迅雷链

区块链

亚马逊全球百万钜惠引爆“黑五” 跨境狂欢“巅峰6日”震撼登场

爱极客侠

OpenFeign和Consul爱恨交织的两天

编号94530

Spring Cloud Consul OpenFegin spring 5

LAXCUS大数据集群操作系统挖矿

陈泽云

大数据 分布式计算 挖矿

深入浅出 Go - sync.Once 源码分析

哈希说

golang

面试题总结--HashMap、Volatile相关

彭阿三

KubeVela 正式开源:一个高可扩展的云原生应用平台与核心引擎

阿里巴巴云原生

阿里云 开源 Kubernetes 云原生 OAM

《Python程序员面试算法宝典》PDF 超清版免费领取

计算机与AI

Python 面试 算法

阿里作为内部参考的Redis文档现在开放下载,姐夫半夜不睡都在看

小Q

Java redis 学习 编程 面试

京东开发4年,想要跳槽去拼多多,落泪四4面,这年头跳槽可真难啊(还好不是裸辞)

马士兵老师

架构 面试 编程语言 Java 面试 java架构师

某美团程序员爆料:筛选简历时,用go语言的基本不看!网友:当韭菜还当出优越感了!

Java架构师迁哥

苹果首发ARM架构电脑芯片,将对PC格局带来哪些影响?

脑极体

深入理解h2和r2dbc-h2

程序那些事

响应式编程 R2DBC 程序那些事 响应式架构 r2dbc-h2

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望

Facebook基于十亿单词量构建了一个高效的神经网络模型-InfoQ