收录了 速度训练 频道下的 50 篇内容
现在,适用于 Ubuntu 和 Amazon Linux 的 AWS Deep Learning AMI 包含最新版本的 TensorFlow (1.5) 和 Microsoft Cognitive Toolkit (2.4)。
本次优化的背景来源于公有云AOM日志服务。
基于CPU的训练系统或许已经不再是最合适的解决方案了。
云NAS与存储公司Nasuni发布了年度云存储基准测试的结果。Microsoft Azure Storage在速度、可用性和扩展性方面胜出。基准测试涵盖的其它服务还包括Amazon S3和Google Cloud Storage。
深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于Fluid(内含JindoRuntime)的新架构方案,显著提升了海量小文件场景模型训练的性能和稳定性,多机多卡分布式训练场景可将模型训练的速度提升18倍。
利用合成数据,Uber将其神经结构搜索(NAS)深度学习优化过程提升了9倍。
Smashtest非常注重通过语言简洁地表达开发人员执行的重复性测试任务来提高测试人员的工作效率。
马斯克的SpaceX Starlink 测试版来了!用户拆箱体验:感觉像是来自未来。
Mozilla在Firefox 58中为WebAssembly(WASM)组件推出了一套双层编译系统,号称解析和编译WASM代码的速度达到30-60MB/s,足够在有线网络中实现实时编译。基准测试表明,新版的性能比旧版提高了10倍,比Chrome快10倍以上。
该版本的主要API贡献是为深度学习模型提供了一个编译函数,可以加快训练速度。
任何时候,Pinterest都运行着数以百计的A/B“试验(experiment)”,其JavaScript测试框架已无法满足他们的试验需求。它需要15分钟才能完成整套“测试(test)”,而且经常会因为试验行为变更以及网络/浏览器问题而中断。因此,他们借机重构了Web测试框架,并在官方博客上介绍了其中几项重点改进。
借助这些硬件和软件优化,您现在可以以同样的速度和效率训练您的模型。
旨在解决大模型训练时写检查点十分耗时的问题,相比 PyTorch 基线,写入速度提升超过 100 倍。
“数据回送”复用训练前期阶段的中间输出,以利用闲置的计算空间。
OpenRL 是由第四范式强化学习团队开发的基于 PyTorch 的强化学习研究框架,支持单智能体、多智能体、自然语言等多种任务的训练。OpenRL 基于 PyTorch 进行开发,目标是为强化学习研究社区提供一个简单易用、灵活高效、可持续扩展的平台。
训练AI玩游戏时,SEED RL的处理速度可高达240万帧/秒。
异构深度学习训练技术ZeRO-Offload可让开发者在单个GPU上训练数十亿个参数模型。
随机森林算法实现的性能对比测试报告
目前还没有任何工作能构建出一个与任务无关的轻量级预训练模型,谷歌大脑研发人员提出了MobileBERT来填补这一空白。