写点什么

PyTorch 2.0 编译器提高了模型训练速度

  • 2023-05-02
    北京
  • 本文字数:1235 字

    阅读完需:约 4 分钟

PyTorch 2.0编译器提高了模型训练速度

PyTorch基金会最近发布了PyTorch 2.0版本,这是一个 100%向后兼容的更新。该版本的主要 API 贡献是为深度学习模型提供了一个编译函数,可以加快训练速度。163 个开源人工智能项目的内部基准测试显示,在训练期间,这些模型平均运行速度提高了 43%。

 

PyTorch 2.0 的发布计划于 2022 年 12 月在PyTorch大会上宣布。除了新的编译特性外,该版本还包括通过缩放点积注意力(SDPA)的新实现来提高 Transformer-based 模型(如大语言模型和扩散模型)的性能。通过改进的Metal Performance Shaders(MPS)加快了在 Apple Silicon 上的训练,目前在 MPS 中实施了 300 项操作。除了核心版本外,包括 TorchAudio、TorchVision 和 TorchText 在内的域库也更新了新的测试版功能。总体而言,自 1.13.1 版本发布以来,2.0 版本包含了来自 428 名开发人员的 4500 多次提交。PyTorch 基金会的博客上写到:

 

能宣布 PyTorch®2.0 的发布,我们很激动,我们在 2022 年 12 月 2 日的 PyTorch 大会上强调了这一点!PyTorch 2.0 提供了相同的动态图模式(eager-mode)开发和用户体验,同时从根本上改变并加强了 PyTorch 在编译器级别的操作方式,提供了更快的性能和对动态形状和分布式的支持。

 

在 2022 年 PyTorch 大会的主题演讲中,PyTorch 联合创始人Soumith Chintala指出,由于 GPU 计算能力的增加,许多现有的 PyTorch 工作负载受到了内存带宽或 PyTorch 框架开销的限制。此前,PyTorch 团队通过用 C++编写一些核心组件来解决性能问题;Chintala 将 PyTorch 描述为“基本上是一个 C++代码库”,并表示他“讨厌”为 C++组件做出贡献。

 

新的编译特性基于四个用 Python 编写的底层组件:

 

  • TorchDynamo——通过将表示深度学习模型的 Python 代码重写为计算图块来执行图的获取

  • AOTAutograd ——为后退步骤执行“提前”自动微分

  • PrimTorch——将超过 2k 个 PyTorch 操作符规范化为固定的约 250 个原始操作符

  • TorchInductor——为加速器生成特定于硬件的快速后端代码

 

为了演示编译函数的性能改进和易用性,PyTorch 团队确定了 163 个开源深度学习项目进行基准测试。其中包括各种任务的实现,包括计算机视觉、自然语言处理和强化学习。除了对编译函数的单行调用外,该团队没有对代码进行任何更改。这一单一改动在 93%的项目中有效,在NVIDIA A100 GPU 上训练时,编译后的模型的运行速度提高了 43%。

 

在黑客新闻(Hacker News)关于此次发布的讨论中,一位用户指出

 

通过与其他框架相比,我从 PyTorch 中学到的一条重要教训是,生产力胜过增量的性能改进。Caffe 和 MXNet 都以速度快为卖点的,但显然在此处或这里的速度都快了一些,但这并不重要。另一方面,一旦我们让一个系统运行并流行起来,社区将会以比竞争对手预期更快地缩小性能差距。另一个教训可能是老生常谈的但同样值得重复:对开源项目的投资和专业打磨很重要。

 

PyTorch的代码2.0版本的发布说明可在 GitHub 上获得。

 

原文链接:

https://www.infoq.com/news/2023/03/pytorch-release-compile/


相关阅读:

里程碑!PyTorch 正式加入 Linux 基金会,社区治理这一核心将不会改变

深度学习为什么要选择 PyTorch

2023-05-02 08:004233

评论

发布
暂无评论
发现更多内容

建筑矿山设备工厂南京厂区:MyEMS 赋能绿色智能制造转型实践

开源能源管理系统

开源 能源管理系统

区块链Web3项目的需求分析

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

AI 网关代理 RAG 检索:Dify 轻松对接外部知识库的新实践

阿里巴巴云原生

阿里云 云原生 AI网关

写作格式一键复刻!Fabarta个人专属智能体自定义模板新功能介绍

Fabarta

人工智能 个人专属智能体

基于仓颉编程语言+DeepSeek实现智能聊天助手开发秘籍

华为云开发者联盟

MaaS CodeArts 华为开发者空间 cangjie

迁移TiDB数据库数据到GaussDB

谷云科技RestCloud

数据传输 数据同步 ETL TiDB GaussDB 实时同步

如何配置密码策略 - 概述和指南

运维有小邓

企业借助 MyEMS 开源能源管理系统实现节能减排的实践路径

开源能源管理系统

开源 能源管理系统

RAG技术工作流程详解

测试人

AICon 2025|以具身智能破局工程机械智能化,从游戏AI到产业实践的跨越之路

网易伏羲

智慧矿山 网易伏羲 具身智能 工程机械智能化 挖掘机器人

Deepseek V3.1 本地化部署实践

冯骐

人工智能 大模型 DeepSeekV3.1

开源赋能能源管理:MyEMS 如何改写行业规则

开源能源管理系统

开源 能源管理系统

闲鱼商品详情API数据解析(附代码)

tbapi

闲鱼API 闲鱼商品数据采集 闲鱼商品详情API 闲鱼商品采集

我如何用Prompt工程将大模型调教成风控专家

京东零售技术

态势感知如何塑造政府治理与公共安全新格局?

沃观Wovision

态势感知 沃观Wovision 舆情监测系统

玩转nano-banana:如何自己开发ChatBot一键生成3D模型

阿星AI工作室

产品 AI 产品经理 大模型

轻量级知识图谱框架LightRAG入门指南

测试人

🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

阿里云大数据AI技术

阿里云 NL2SQL Dataworks PAI Spider2.0

iPaaS实施的前提是先进行集成关系的梳理

谷云科技RestCloud

数字化转型 数据孤岛 集成平台 API管理 ipaas

来自火山引擎的 MCP 安全授权新范式

火山引擎开发者社区

火山引擎 MCP

AI收入提升45%,天润云领跑Agent时代|一图读懂天润云2025H1业绩

天润融通

从新闻数据到社会脉动:智能分析的实践与挑战

沃观Wovision

数据分析 新闻 沃观Wovision 舆情监测系统

电信国际网络加速:打破地域界限,畅游全球网络

宽炜网络

快手发布SeamlessFlow框架:完全解耦Trainer与Agent,时空复用实现无空泡的工业级RL训练!

快手技术

人工智能

有范同城到家小程序系统:赋能本地生活服务高效运营

微擎应用市场

增加应用中心、组织广场模块 作业支持AI评审|ModelWhale 版本更新

ModelWhale

AI Agent 和鲸 大模型应用平台

不止于“think with image”!快手Kwai Keye发布Thyme,赋予模型超越图像思考的超能力!

快手技术

大模型 推荐大模型

国务院重磅AI新政发布,产业如何平衡生产力跃升与就业挑战?

网易伏羲

人工智能 人机协作 网易伏羲 数字游民 群体智能

PyTorch 2.0编译器提高了模型训练速度_AI&大模型_Anthony Alford_InfoQ精选文章