写点什么

华为昇腾推理技术的优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:559.13K时长:03:10
华为昇腾推理技术的优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


华为高级开发工程师张君已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《华为昇腾推理技术的优化实践》的主题分享。随着大模型技术的快速发展,其在 LLM、多模态融合等领域的应用越来越广泛。然而,大模型的高效推理仍然是一个关键挑战,从计算复杂度、内存占用、通信技术等各个技术层面展开,如何在保证性能的同时降低计算成本、提升推理效率成为了关键挑战。本次演讲将围绕大模型推理优化的技术发展方向,围绕模型层、推理框架层、算子层这 3 个方面展开,并结合实践案例,阐述相关的技术方案和选型,帮助听众更好地理解和应用大模型推理技术。


张君作为核心开发者参与 AI 框架 (昇思) 的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理在昇腾硬件上的相关开发和优化工作,致力于通过优化推理框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理加速的技术挑战与常用方案

  • 算子融合,如 FA,通算融合

  • 模型量化,如 w8a8 等

  • Attention 容量压缩,如 MLA、GQA 等

2. 技术研究热点:模型层、框架层、算子层

  • 模型层优化

  • 昇腾推理领域加速库 ATB

  • 推理框架层优化

  • - 昇腾图编译技术 TorchAir

  • - PD 分离部署

  • - 动态批处理(Dynamic Batching)、Prefix Cache 等

  • 算子层优化

  • 高效融合算子,如 MLA 算子设计

  • NPU 亲和性编程,充分利用 Cube 和 Vector 计算单元能力

3. 业务实践:推理优化成功案例

  • 通信融合算子最大化时间掩盖,如 AllGatherMatmul

  • MLAPO 大融合算子,加速降低计算耗时

4. 下一步优化方向

  • PD+大 EP 等


听众收益:

  • 了解当前华为昇腾推理技术的优化实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 18:009956

评论

发布
暂无评论
发现更多内容

【论文速读】| 攻击图谱:从实践者的角度看生成式人工智能红队测试中的挑战与陷阱

云起无垠

高效的剪辑和渲染能力 Final Cut Pro X简体中文安装包

Rose

1024|京东零售技术人的N种可能

京东零售技术

1024

Visual Studio Code:专业编程工具首选,成就卓越代码!

Rose

PaddleNLP上新!浪潮信息源2.0全面接入,大模型生态加速进化!

百度Geek说

百度 数据 大模型

ai2021安装包 及 Illustrator 2021安装教程

Rose

如CGI一般的分子动力学,让科学家看到了3D渲染后的分子运动「影片」

新消费日报

鸿蒙网络编程系列34-Wifi热点扫描及连接示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

鸿蒙网络编程系列35-通过数据包结束标志解决TCP粘包问题

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

火山引擎数据飞轮线上研讨会即将开启,助力消费品牌双十一造爆款

字节跳动数据平台

Taro 鸿蒙技术内幕系列(一):如何将 React 代码跑在 ArkUI 上

京东零售技术

taro 鸿蒙 前端

生成式AI时代的内容安全与系统构建:合合信息文档图像篡改检测创新方案

海拥(haiyong.site)

人工智能

MicrosoftOffice2019密钥 office2019激活教程

Rose

京东商品详情API详解:全面掌握返回值字段

代码忍者

API 接口 pinduoduo API

macOS Big Sur(苹果macos11系统)安装包分享及安装教程

Rose

拼多多详情API接口的获取与应用

科普小能手

拼多多 API 接口 API 测试 pinduoduo API 拼多多数据

多模态大模型活动 | 使用 PAI×LLaMA Factory 搭建文旅问答机器人

阿里云大数据AI技术

人工智能 LLM PAI 问答机器人

Photoshop 2024对电脑配置有什么要求?ps2024破解安装包分享

Rose

非凸科技银牌赞助GOSIM CHINA 2024,并受邀出席Rust分论坛

非凸科技

开源 rust

CST如何选择时域求解器的频率范围

思茂信息

cst使用教程 电磁仿真 频率

NocoBase 本周更新汇总:子表格支持分页、工作流优化等

NocoBase

开源 低代码 无代码 产品更新

Sketch:专业设计工具首选,成就非凡视觉

Rose

Stability AI一口气推出3款图像生成模型系列!升级版Claude 3.5 Sonnet能像人类一样操控电脑|AI日报

可信AI进展

如何处理海量数据?基于Milvus向量数据库的高度可扩展性

Zilliz

人工智能 Milvus 大模型 Zilliz 向量数据库

增长在流量规则巡检的探索实践|得物技术

得物技术

测试 质量保障 流量巡检

Spring高手之路23——AOP触发机制与代理逻辑的执行

砖业洋__

spring aop aop代理

浅谈活动中台系统技术债管理实践

vivo互联网技术

技术债 效能提升 项目质量 系统稳定

AlDente——Mac 电池管理大师,续航无忧!

Rose

Navicat Premium 数据库管理 --Navicat Premium中文汉化包

Rose

商场LED透明屏:选择参考分析

Dylan

品牌 LED display LED显示屏 零售电商市场

华为昇腾推理技术的优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章