2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

华为昇腾推理技术的优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:559.13K时长:03:10
华为昇腾推理技术的优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


华为高级开发工程师张君已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《华为昇腾推理技术的优化实践》的主题分享。随着大模型技术的快速发展,其在 LLM、多模态融合等领域的应用越来越广泛。然而,大模型的高效推理仍然是一个关键挑战,从计算复杂度、内存占用、通信技术等各个技术层面展开,如何在保证性能的同时降低计算成本、提升推理效率成为了关键挑战。本次演讲将围绕大模型推理优化的技术发展方向,围绕模型层、推理框架层、算子层这 3 个方面展开,并结合实践案例,阐述相关的技术方案和选型,帮助听众更好地理解和应用大模型推理技术。


张君作为核心开发者参与 AI 框架 (昇思) 的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理在昇腾硬件上的相关开发和优化工作,致力于通过优化推理框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理加速的技术挑战与常用方案

  • 算子融合,如 FA,通算融合

  • 模型量化,如 w8a8 等

  • Attention 容量压缩,如 MLA、GQA 等

2. 技术研究热点:模型层、框架层、算子层

  • 模型层优化

  • 昇腾推理领域加速库 ATB

  • 推理框架层优化

  • - 昇腾图编译技术 TorchAir

  • - PD 分离部署

  • - 动态批处理(Dynamic Batching)、Prefix Cache 等

  • 算子层优化

  • 高效融合算子,如 MLA 算子设计

  • NPU 亲和性编程,充分利用 Cube 和 Vector 计算单元能力

3. 业务实践:推理优化成功案例

  • 通信融合算子最大化时间掩盖,如 AllGatherMatmul

  • MLAPO 大融合算子,加速降低计算耗时

4. 下一步优化方向

  • PD+大 EP 等


听众收益:

  • 了解当前华为昇腾推理技术的优化实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 18:0010130

评论

发布
暂无评论
发现更多内容

Topaz Video AI 使用教程:去隔行和升级嘈杂的镜头

Rose

mac软件下载 Topaz Video AI破解版 视频增强软件 Topaz Video AI 教程

SecureCRT常见问题|不允许从系统上的所有字体中进行选择

Rose

SSH SecureCRT激活 SecureCRT常见问题 SecureCRT不能选择字体 SecureCRT Mac破解版

Tower for Mac(Git客户端)

展初云

git 版本控制 Mac软件

Vert.x 教程 (二):如何打包一个 Vert.x 应用

Kevin_913

教程 Vert.x Java’

【行云流水线实践】基于“OneBuild”方法对镜像进行快速装箱 | 京东云技术团队

京东科技开发者

云原生 CI/CD Docker 镜像 企业号11月PK榜

设计模式-单例模式概述 | 京东云技术团队

京东科技开发者

设计模式 单例模式 结构型模式 创建型模型 企业号11月PK榜

为什么那么多简历,AI偏偏推荐了TA?

用友BIP

智能招聘

VMware Workstation 17安装教程之创建普通用户

小齐写代码

ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制

汀丶人工智能

中文分词 elasticsearch 检索引擎 打分机制 向量索引

软件测试/测试开发丨ChatGPT能否成为PPT最佳伴侣

测试人

软件测试

Mac电脑文件对比合并工具 Araxis Merge pro 激活最新版

胖墩儿不胖y

文件对比 Mac软件 文件对比工具 对比工具

能使用公司产品进行软件开发吗?

矩视智能

深度学习 工控机

CorelDRAW 2023 for Mac(矢量图形设计工具)

展初云

Mac CorelDraw 矢量设计

「智造」第4期:用友精智工业互联网助力区域经济转型升级

用友BIP

智能制造

得物自研客服IM中收发聊天消息背后的技术逻辑和思考实现

JackJiang

网络编程 即时通讯 IM

飞桨国际化应用案例:挪威广告企业Adevinta应用PaddleOCR提质增效

飞桨PaddlePaddle

广告 OCR 飞桨 飞桨PaddlePaddle

无需数据搬迁,10倍性能提升!携程的统一分析之旅

StarRocks

数据库 StarRocks

Generative AI 新世界 | 文生图(Text-to-Image)领域论文解读

亚马逊云科技 (Amazon Web Services)

机器学习 生成式人工智能 大语言模型

Parallels Desktop 19虚拟机怎么安装Win系统?Arm Windows 11下载方法

Rose

windows 11 pd虚拟机 Mac虚拟机 Parallels Desktop 19

Elasticsearch实战:常见错误及详细解决方案

汀丶人工智能

Elastic Search

同城售后系统退款业务重构心得 | 京东云技术团队

京东科技开发者

架构 架构设计 企业号11月PK榜 系统重构

SaaS 出海,如何搭建国际化服务体系?(三)

LigaAI

SaaS 远程会议 高效协作 出海企业 SaaS 增长

等你加入!文心开发者说分享者招募全面开启

飞桨PaddlePaddle

开发者 文心 文心开发者说

想升级企业绩效管理吗?送你一个数智化神器!

用友BIP

绩效管理

华为昇腾推理技术的优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章