写点什么

华为昇腾推理技术的优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:559.13K时长:03:10
华为昇腾推理技术的优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


华为高级开发工程师张君已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《华为昇腾推理技术的优化实践》的主题分享。随着大模型技术的快速发展,其在 LLM、多模态融合等领域的应用越来越广泛。然而,大模型的高效推理仍然是一个关键挑战,从计算复杂度、内存占用、通信技术等各个技术层面展开,如何在保证性能的同时降低计算成本、提升推理效率成为了关键挑战。本次演讲将围绕大模型推理优化的技术发展方向,围绕模型层、推理框架层、算子层这 3 个方面展开,并结合实践案例,阐述相关的技术方案和选型,帮助听众更好地理解和应用大模型推理技术。


张君作为核心开发者参与 AI 框架 (昇思) 的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理在昇腾硬件上的相关开发和优化工作,致力于通过优化推理框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理加速的技术挑战与常用方案

  • 算子融合,如 FA,通算融合

  • 模型量化,如 w8a8 等

  • Attention 容量压缩,如 MLA、GQA 等

2. 技术研究热点:模型层、框架层、算子层

  • 模型层优化

  • 昇腾推理领域加速库 ATB

  • 推理框架层优化

  • - 昇腾图编译技术 TorchAir

  • - PD 分离部署

  • - 动态批处理(Dynamic Batching)、Prefix Cache 等

  • 算子层优化

  • 高效融合算子,如 MLA 算子设计

  • NPU 亲和性编程,充分利用 Cube 和 Vector 计算单元能力

3. 业务实践:推理优化成功案例

  • 通信融合算子最大化时间掩盖,如 AllGatherMatmul

  • MLAPO 大融合算子,加速降低计算耗时

4. 下一步优化方向

  • PD+大 EP 等


听众收益:

  • 了解当前华为昇腾推理技术的优化实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 18:0010209

评论

发布
暂无评论
发现更多内容

面部表情识别在社交媒体中的应用

数据堂

面部表情识别的未来发展趋势

数据堂

时序数据库 TDengine SQL 查询语法规则汇总,官方教程奉上!

爱倒腾的程序员

数据库

软件测试/测试开发丨Python 内置库 多线程threading

测试人

Python 程序员 软件测试 自动化测试 测试开发

基于Pair-wise和CrossEncoder训练单塔模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

面部表情识别技术的挑战与前景

数据堂

IOS上架流程

直播预告 | 博睿学院:浅析windows Hook原理和机制

博睿数据

可观测性 智能运维 博睿数据 直播预告 博睿学院

智慧生活的下半场,从全屋智能4.0接入未来

这不科技

华为 鸿蒙系统

软件测试/测试开发丨Python 内置库 正则表达式re

测试人

Python 正则表达式 程序员 软件测试 测试开发

火爆全球的AI艺术二维码到底是怎么做的?

Ricky

二维码 个性化推荐 二维码生成

隆重介绍!为啥它让智能制造有了“芯”能力?

用友BIP

制造

何时使用MongoDB而不是MySql

越长大越悲伤

MySQL 数据库 mongodb

浪潮海岳云原生平台技术分享丨轻松解决数据库备份痛点

inBuilder低代码平台

云原生 低代码平台

MRS大企业ERP流程实时数据湖加工最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

数字时代的生产力工具:低代码开发平台

力软低代码开发平台

Observable设计模式简介

树上有只程序猿

Java java-API Observable

RR有幻读问题吗?MVCC能否解决幻读?

王磊

Java Java 面试题

基于Java开发的企业级数字化采购系统(SRM)

金陵老街

srm 采购系统 招投标系统

瓴羊Quick BI跻身Gartner魔力象限挑战者行列

夜雨微澜

超好用的数据可视化工具——Grafana

云原生应用市场

监控 数据 Grafana 告警

HarmonyOS NEXT新能力,一站式高效开发HarmonyOS应用

极客天地

软件测试/测试开发丨Python 内置库 pythonlogging

测试人

Python 程序员 软件测试 自动化测试 测试开发

HarmonyOS系统级推送服务,打造消息通知新体验

极客天地

全球优秀的架构师都在关注什么?

用友BIP

架构师 数智底座

一键登录和短信验证登录,到底有什么区别?

MobTech袤博科技

前端 App 前端开发 APP开发

华为昇腾推理技术的优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章