50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

PyTorch 2.5 发布,支持英特尔 GPU

  • 2024-11-19
    北京
  • 本文字数:1171 字

    阅读完需:约 4 分钟

大小:553.44K时长:03:08
PyTorch 2.5发布,支持英特尔GPU

最近,PyTorch 基金会发布了PyTorch 2.5版本,其中包含对英特尔 GPU 的支持。该版本还包含多项性能增强,如FlexAttentionAPI、TorchInductor CPU 后端优化,以及可缩短编译时间的区域编译功能。总体而言,该版本包含了自 PyTorch 2.4 以来的 4095 次提交。

 

最近举行的PyTorch大会演示了 PyTorch 对英特尔 GPU 的支持。英特尔工程师 Eikan Wang 和 Min Jean Cho 介绍了 PyTorch 为支持该硬件而做出的改变,包括泛化 PyTorch 运行时和设备层,使其更容易与新的硬件后端集成。此外,对于 torch.compile 和 torch.distributed,该版本实现了特定于英特尔 GPU 的后端。英特尔人工智能框架工程副总裁Kismat Singh表示


我们在 PyTorch 2.5 中添加了对英特尔客户端 GPU 的支持。基本上,这意味着你可以在使用最新英特尔处理器的英特尔笔记本电脑和台式机上运行 PyTorch。我们认为,这将在今年为 PyTorch 用户解锁 4000 万台笔记本电脑和台式机,预计到明年年底这一数值将达到 1 亿左右。


该版本新增了 FlexAttention API,它使 PyTorch 用户更容易在其模型中尝试不同的注意力机制。通常情况下,想要尝试新的注意力机制变体,研究人员需要直接在 PyTorch 算子中手动编码。然而,这可能会导致 “运行时缓慢和 CUDA OOM”。有了该 API,用户只需要编写 “几行惯用的 PyTorch 代码”就可以完成这项工作。然后,编译器会将这些代码转换为最优内核,“不会产生任何额外的内存开销,而性能可与手写内核相媲美”。

 

有多项性能改进尚处于 Beta 测试阶段。新增的后端 Fused Flash Attention 在英伟达 H100 GPU 上 “比 FlashAttentionV2 快 75%”。torch.compile 的区域编译功能不再需要编译完整的模型;取而代之的是编译重复模块 nn.Modules,如 Transformer 层。这可以减少编译延迟,同时只会造成百分之个位数的性能损失。TorchInductor CPU 后端也进行了多项优化。

 

Flight Recorder是一个新的调试工具,用于解决作业卡住的问题。分布式训练过程中可能会出现作业卡住的情况,其根本原因可能有很多,包括数据饥饿、网络问题或软件 Bug。Flight Recorder 使用内存循环缓冲区来捕获诊断信息。当检测到作业卡住时,它会将诊断信息转储到文件中;然后,可以使用启发式脚本对数据进行分析,找出根本原因。

 

在 Reddit 上关于该版本的讨论中,许多用户很高兴看到PyTorch对英特尔GPU的支持,称其为 “游戏规则的改变者”。另一位用户写道

很高兴看到 torch.compile 有了改进,尤其是重用重复模块以加快编译速度的功能。对于拥有大量类似组件的大型模型来说,这可能会改变游戏的规则。FlexAttention API 看起来也很有前景——只需几行代码就能实现各种注意力机制,并获得几乎可以媲美手写代码的性能,这实在是太棒了。感谢 PyTorch 团队和贡献者们又发布了一个出色的版本!


感兴趣的读者可以从 GitHub 上获取 PyTorch 2.5 的代码和发布说明。 

 

原文链接:

https://www.infoq.com/news/2024/10/pytorch-25-release/

2024-11-19 10:337275

评论

发布
暂无评论
发现更多内容

飞机机翼弹性不足、桥梁晃动频率过高,重要的流固耦合FSI如何用技术解决

Altair RapidMiner

设计 仿真 altair 人工智能、 飞机

面向 RAG 应用开发者的实用指南和建议

Zilliz

人工智能 AI 向量数据库 大语言模型 rag

1688商品详情API返回值:商品质量监控的利器

技术冰糖葫芦

api 货币化 API 接口 API 文档 API 测试

深中通道元宇宙启航!3DCAT实时云渲染助力沉浸式体验深中通道

3DCAT实时渲染

元宇宙 元宇宙解决方案 元宇宙文旅

裁员失业后的自救指南

老张

副业 裁员 第二曲线

手把手教你把PPT压缩到20M以内,这4个技巧办公必备!

职场工具箱

效率 职场 PPT 办公软件 AI生成PPT

淘宝店铺商品API返回值中的商品库存与销量信息

技术冰糖葫芦

api 货币化 API 接口 API 文档 API 测试

生成式AI及其对API和软件开发的影响

幂简集成

AI API 生成式AI

3D摄影棚布光软件:Set A Light 3D Studio for Mac

你的猪会飞吗

mac软件下载 Mac破解软件

Deep-Live-Cam:只需单张图像即可实现人脸替换;零一万物、月之暗面再掀国产大模型资本战丨 RTE 开发者日报

声网

“AI+Security”系列第2期(一):对抗!大模型自身安全的攻防博弈

云起无垠

解析 Aethir 的代币经济学,如何成为其 DePIN 计算体系的驱动力?

股市老人

Gather:开启绝密社交和收益双重惊喜之旅

股市老人

12 个开源社区喊你跟通义灵码结伴编码,赢开源先锋大奖!

阿里巴巴云原生

阿里云 云原生 通义灵码

重塑购车体验,实时云渲染赋能东风日产探路云看车新体验

3DCAT实时渲染

实时云渲染 云3D渲染 汽车虚拟仿真 云看车

Go语言中如何连接 MySQL,基础必备!

左诗右码

Go

什么是CC攻击?CC攻击怎么防御?

网络安全服务

黑客 https 服务器 DDoS DDoS 攻击

终端增强技术实现真正落地!微帧科技与天猫精灵联手打造的精灵原画-AI视效增强,在居家Livehouse里,音画一体、跃级享受!

微帧Visionular

【YashanDB数据库】Ubuntu系统加载Yashan C驱动后无法使用PHP

YashanDB

yashandb 崖山数据库 崖山DB

AI魔术上演前夕,国产存储早已强势清场

脑极体

AI

一个难忘的json反序列化问题

不在线第一只蜗牛

json 反序列

英特尔最新车载独立显卡,汽车装上了AI超级大脑

E科讯

PyTorch 2.5发布,支持英特尔GPU_编程语言_Anthony Alford_InfoQ精选文章