写点什么

速度训练

收录了 速度训练 频道下的 50 篇内容

AWS Deep Learning AMI 现在能够以更快的速度训练
AWS Deep Learning AMI 现在能够以更快的速度训练

现在,适用于 Ubuntu 和 Amazon Linux 的 AWS Deep Learning AMI 包含最新版本的 TensorFlow (1.5) 和 Microsoft Cognitive Toolkit (2.4)。

单个GPU可训练数十亿参数模型:异构深度学习训练技术ZeRO-Offload做到了
单个 GPU 可训练数十亿参数模型:异构深度学习训练技术 ZeRO-Offload 做到了

异构深度学习训练技术ZeRO-Offload可让开发者在单个GPU上训练数十亿个参数模型。

单机训练速度提升640倍!独家解读快手商业广告模型GPU训练平台Persia
单机训练速度提升 640 倍!独家解读快手商业广告模型 GPU 训练平台 Persia

基于CPU的训练系统或许已经不再是最合适的解决方案了。

计算速度提高80倍!谷歌推出分布式强化学习框架SEED RL
计算速度提高 80 倍!谷歌推出分布式强化学习框架 SEED RL

训练AI玩游戏时,SEED RL的处理速度可高达240万帧/秒。

Uber的合成训练数据将深度学习的速度提升了9倍
Uber 的合成训练数据将深度学习的速度提升了 9 倍

利用合成数据,Uber将其神经结构搜索(NAS)深度学习优化过程提升了9倍。

速度提升18倍!微博海量深度学习模型训练效率跃升的秘密
速度提升 18 倍!微博海量深度学习模型训练效率跃升的秘密

深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于Fluid(内含JindoRuntime)的新架构方案,显著提升了海量小文件场景模型训练的性能和稳定性,多机多卡分布式训练场景可将模型训练的速度提升18倍。

谷歌大脑提出“数据回送”算法,神经网络训练速度提升4倍
谷歌大脑提出“数据回送”算法,神经网络训练速度提升 4 倍

“数据回送”复用训练前期阶段的中间输出,以利用闲置的计算空间。

Amazon Web Services 为 BERT 和 Mask R-CNN 实现了最快的训练速度
Amazon Web Services 为 BERT 和 Mask R-CNN 实现了最快的训练速度

借助这些硬件和软件优化,您现在可以以同样的速度和效率训练您的模型。

PyTorch 2.0编译器提高了模型训练速度
PyTorch 2.0 编译器提高了模型训练速度

该版本的主要API贡献是为深度学习模型提供了一个编译函数,可以加快训练速度。

谷歌提出任务无关的轻量级预训练模型MobileBERT:比BERT小4倍、速度快5倍
谷歌提出任务无关的轻量级预训练模型 MobileBERT:比 BERT 小 4 倍、速度快 5 倍

目前还没有任何工作能构建出一个与任务无关的轻量级预训练模型,谷歌大脑研发人员提出了MobileBERT来填补这一空白。

训练速度提升超3倍!斯坦福推出全新深度学习并行计算框架FlexFlow
训练速度提升超 3 倍!斯坦福推出全新深度学习并行计算框架 FlexFlow

斯坦福Matei团队提出全新深度学习并行计算框架FlexFlow

大模型训练中的速度与效率优化

在人工智能和深度学习的时代,模型训练的速度和效率是决定科研和商业成功的关键因素之一。然而,在实践中,我们往往会遇到一些“坑”,其中最常见的之一就是模型训练速度过慢和GPU利用率低。

深度学习
大模型
大模型训练对深度学习图片检测速度和精度的影响

随着深度学习的快速发展,图像检测技术在各个领域的应用越来越广泛。然而,深度学习图像检测方法的速度和精度一直是制约其应用的关键问题。在保证检测精度的同时,如何提高深度学习图像检测的速度成为了一个迫切需要解决的问题。

深度学习
大模型训练
千帆大模型平台
微软发布DeepSpeed开源库,支持1000亿个参数模型的训练
微软发布 DeepSpeed 开源库,支持 1000 亿个参数模型的训练

当深度学习模型越来越大,训练该如何进行?

Google AI 博客:通过数据回传加速神经网络训练
Google AI 博客:通过数据回传加速神经网络训练

通常,代码从上游到加速器的时间是代码在加速器上运行时间的两倍,即使代码以流水线的方式并行执行上游和下游阶段,上游阶段的代码也会占据大量的训练时间,加速器将有 50% 的时间处于闲置状态。

IBM 推出全新机器学习库 Snap ML,高出现有基准性能 46 倍

在拉斯维加斯举行的IBM THINK 2018大会上,IBM宣布了一项与机器学习性能有关的重大突破。他们使用一组由Criteo实验室发布的广告数据集(包含了40亿个训练样本)来训练逻辑回归分类器,结果只花了91.5秒就完成了整个训练过程,这一成绩比之前报告的最好成绩快了46倍。

【云原生 AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

简介: 深度学习平台在微博社交业务扮演着重要的角色。计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题。本文将介绍微博内部设计实现的一套全新的基于 Fluid(内含 JindoRuntime)的新架构方案,显著提升了海量小文件场景模型

MXNet 视频I/O读取速度提升18倍的优化策略
MXNet 视频 I/O 读取速度提升 18 倍的优化策略

大规模视频数据的模型训练中,视频读取时间严重影响模型的训练速度。

单GPU用CIFAR10训练达到94%只要26秒的秘密
单 GPU 用 CIFAR10 训练达到 94% 只要 26 秒的秘密

本文将进行全面探讨,包括如何加快单GPU训练实现,最终在其它多GPU竞争方案中脱颖而出。

谷歌新研究对神经网络数据并行性提出质疑
谷歌新研究对神经网络数据并行性提出质疑

歌的一项新研究表明,数据并行并不一定总能加快模型训练速度。这是为什么呢?

速度训练专题_资料-InfoQ中文网