写点什么

华为昇腾推理技术的优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:559.13K时长:03:10
华为昇腾推理技术的优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


华为高级开发工程师张君已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《华为昇腾推理技术的优化实践》的主题分享。随着大模型技术的快速发展,其在 LLM、多模态融合等领域的应用越来越广泛。然而,大模型的高效推理仍然是一个关键挑战,从计算复杂度、内存占用、通信技术等各个技术层面展开,如何在保证性能的同时降低计算成本、提升推理效率成为了关键挑战。本次演讲将围绕大模型推理优化的技术发展方向,围绕模型层、推理框架层、算子层这 3 个方面展开,并结合实践案例,阐述相关的技术方案和选型,帮助听众更好地理解和应用大模型推理技术。


张君作为核心开发者参与 AI 框架 (昇思) 的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理在昇腾硬件上的相关开发和优化工作,致力于通过优化推理框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理加速的技术挑战与常用方案

  • 算子融合,如 FA,通算融合

  • 模型量化,如 w8a8 等

  • Attention 容量压缩,如 MLA、GQA 等

2. 技术研究热点:模型层、框架层、算子层

  • 模型层优化

  • 昇腾推理领域加速库 ATB

  • 推理框架层优化

  • - 昇腾图编译技术 TorchAir

  • - PD 分离部署

  • - 动态批处理(Dynamic Batching)、Prefix Cache 等

  • 算子层优化

  • 高效融合算子,如 MLA 算子设计

  • NPU 亲和性编程,充分利用 Cube 和 Vector 计算单元能力

3. 业务实践:推理优化成功案例

  • 通信融合算子最大化时间掩盖,如 AllGatherMatmul

  • MLAPO 大融合算子,加速降低计算耗时

4. 下一步优化方向

  • PD+大 EP 等


听众收益:

  • 了解当前华为昇腾推理技术的优化实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 18:003377

评论

发布
暂无评论
发现更多内容

你真的了解 sync.Mutex吗

Leo叔叔

mutex Go Concurrency Patterns Go 语言

Java容器--2021面试题系列教程(附答案解析)--大白话解读--JavaPub版本

JavaPub

Java 面试 hashmap javapub

ZEGO全新语音聊天室方案,2小时复刻 Clubhouse

ZEGO即构

极客大学·产品训练营·第三章作业(第四周)

二大爷

极客大学 极客大学产品经理训练营 产品训练营

产品经理 - 第三周作业

LLL777

认识 Java 中的队列:Vector、ArrayList、CopyOnWriteArrayList、SynchronizedList

看山

Java 线程安全

深入了解gradle和maven的区别

程序那些事

maven Gradle 程序那些事 构建工具

你看那个程序员,每年升职加薪,日赚3千

谙忆

第四章作业

Rui

【得物技术】走进Web3D的世界(1) 画个立方体吧

得物技术

html html5 js WebGL 得物技术

「产品经理训练营」作业 04:知识星球加入星球用例

狷介

产品经理训练营

Elasticsearch 精确匹配与全文搜索

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

流媒体传输协议之 RTP(下篇)

阿里云CloudImagine

音视频 流媒体 rtp

话题讨论 | 如何获得令人心动的前端offer

我是哪吒

程序员 面试 大前端 话题讨论 二月春节不断更

话题讨论 | 你是不是一个特别容易被说服的人?

石云升

话题讨论 2月春节不断更

5. Python 循环的本质就是一段代码懒得重复写

梦想橡皮擦

Python Python Monad 2月春节不断更 python入门

产品经理训练营笔记 - 业务流程与产品文档(二)

.nil?

产品经理训练营

第四周作业

Geek_72d5ab

HTTPS的安全性从何而来?

盘点和程序员相关的那些事,让你不再被割韭菜,薅羊毛!

孙叫兽

程序员 程序人生 高薪 话题讨论

区分重载和重写,轻松掌握 Java 多态

飞天小牛肉

Java 程序员 面试 后端 2月春节不断更

马斯克说狗币牛逼,我说idea插件助你盯盘摸鱼

滑板上的老砒霜

比特币 idea插件 Android开发

产品训练营 - 第四周 - 作业

邹小胖

产品训练营

金融科技的碎片化思考(中)

曲水流觞TechRill

金融科技

【STM32】0.96寸OLED显示屏(7针SPI协议)软件模拟SPI

AXYZdong

硬件 stm32 2月春节不断更

抽奖小程序-活动发布用例分析及流程图

思亭

正确面对倦怠感,提升职场战斗力

boshi

职场成长 七日更

从“乌鸡”到5G,不仅仅是谐音梗

脑极体

LeetCode题解:297. 二叉树的序列化与反序列化,DFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

5G点亮工业革命前,2021需要持续点亮5G

脑极体

第四周作业-核销优惠券用例

隋泽

产品经理训练营

华为昇腾推理技术的优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章