收录了 速度训练 频道下的 50 篇内容
现在,适用于 Ubuntu 和 Amazon Linux 的 AWS Deep Learning AMI 包含最新版本的 TensorFlow (1.5) 和 Microsoft Cognitive Toolkit (2.4)。
异构深度学习训练技术ZeRO-Offload可让开发者在单个GPU上训练数十亿个参数模型。
基于CPU的训练系统或许已经不再是最合适的解决方案了。
训练AI玩游戏时,SEED RL的处理速度可高达240万帧/秒。
利用合成数据,Uber将其神经结构搜索(NAS)深度学习优化过程提升了9倍。
深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于Fluid(内含JindoRuntime)的新架构方案,显著提升了海量小文件场景模型训练的性能和稳定性,多机多卡分布式训练场景可将模型训练的速度提升18倍。
“数据回送”复用训练前期阶段的中间输出,以利用闲置的计算空间。
借助这些硬件和软件优化,您现在可以以同样的速度和效率训练您的模型。
该版本的主要API贡献是为深度学习模型提供了一个编译函数,可以加快训练速度。
目前还没有任何工作能构建出一个与任务无关的轻量级预训练模型,谷歌大脑研发人员提出了MobileBERT来填补这一空白。
斯坦福Matei团队提出全新深度学习并行计算框架FlexFlow
在人工智能和深度学习的时代,模型训练的速度和效率是决定科研和商业成功的关键因素之一。然而,在实践中,我们往往会遇到一些“坑”,其中最常见的之一就是模型训练速度过慢和GPU利用率低。
随着深度学习的快速发展,图像检测技术在各个领域的应用越来越广泛。然而,深度学习图像检测方法的速度和精度一直是制约其应用的关键问题。在保证检测精度的同时,如何提高深度学习图像检测的速度成为了一个迫切需要解决的问题。
当深度学习模型越来越大,训练该如何进行?
通常,代码从上游到加速器的时间是代码在加速器上运行时间的两倍,即使代码以流水线的方式并行执行上游和下游阶段,上游阶段的代码也会占据大量的训练时间,加速器将有 50% 的时间处于闲置状态。
在拉斯维加斯举行的IBM THINK 2018大会上,IBM宣布了一项与机器学习性能有关的重大突破。他们使用一组由Criteo实验室发布的广告数据集(包含了40亿个训练样本)来训练逻辑回归分类器,结果只花了91.5秒就完成了整个训练过程,这一成绩比之前报告的最好成绩快了46倍。
简介: 深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于 Fluid(内含 JindoRuntime)的新架构方案,显著提升了海量小文件场景模型
大规模视频数据的模型训练中,视频读取时间严重影响模型的训练速度。
本文将进行全面探讨,包括如何加快单GPU训练实现,最终在其它多GPU竞争方案中脱颖而出。
歌的一项新研究表明,数据并行并不一定总能加快模型训练速度。这是为什么呢?