写点什么

华为昇腾推理技术的优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:559.13K时长:03:10
华为昇腾推理技术的优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


华为高级开发工程师张君已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《华为昇腾推理技术的优化实践》的主题分享。随着大模型技术的快速发展,其在 LLM、多模态融合等领域的应用越来越广泛。然而,大模型的高效推理仍然是一个关键挑战,从计算复杂度、内存占用、通信技术等各个技术层面展开,如何在保证性能的同时降低计算成本、提升推理效率成为了关键挑战。本次演讲将围绕大模型推理优化的技术发展方向,围绕模型层、推理框架层、算子层这 3 个方面展开,并结合实践案例,阐述相关的技术方案和选型,帮助听众更好地理解和应用大模型推理技术。


张君作为核心开发者参与 AI 框架 (昇思) 的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理在昇腾硬件上的相关开发和优化工作,致力于通过优化推理框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理加速的技术挑战与常用方案

  • 算子融合,如 FA,通算融合

  • 模型量化,如 w8a8 等

  • Attention 容量压缩,如 MLA、GQA 等

2. 技术研究热点:模型层、框架层、算子层

  • 模型层优化

  • 昇腾推理领域加速库 ATB

  • 推理框架层优化

  • - 昇腾图编译技术 TorchAir

  • - PD 分离部署

  • - 动态批处理(Dynamic Batching)、Prefix Cache 等

  • 算子层优化

  • 高效融合算子,如 MLA 算子设计

  • NPU 亲和性编程,充分利用 Cube 和 Vector 计算单元能力

3. 业务实践:推理优化成功案例

  • 通信融合算子最大化时间掩盖,如 AllGatherMatmul

  • MLAPO 大融合算子,加速降低计算耗时

4. 下一步优化方向

  • PD+大 EP 等


听众收益:

  • 了解当前华为昇腾推理技术的优化实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 18:009721

评论

发布
暂无评论

怎么在线画用户旅程图?分享10个用户旅程图模板!

职场工具箱

职场 产品经理 在线白板 绘图工具 用户旅程图

哇喔!20种单例模式的实现与变异总结

威哥爱编程

Java 设计模式 单例模式 JavaEE

2024-11-13:求出所有子序列的能量和。用go语言,给定一个整数数组nums和一个正整数k, 定义一个子序列的能量为子序列中任意两个元素之间的差值绝对值的最小值。 找出nums中长度为k的所有子

福大大架构师每日一题

福大大架构师每日一题

《实力见证,卓越前行 ——伊克罗德信息荣获 Amazon Redshift Delivery 认证》

伊克罗德信息科技

大数据 Amazon

公链数字钱包开发与加密钱包App原生开发

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

区块链NFT项目开发流程

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

快递鸟单号识别API接口代码操作流程

快递鸟

快递

淘宝订单信息获取接口,淘宝订单信息获取API

tbapi

淘宝API接口 淘宝店铺订单接口 天猫店铺订单接口 淘宝店铺订单API

Python 如何根据给定模型计算权值

不在线第一只蜗牛

Python 深度学习

GitLab 如何降级安装?

极狐GitLab

南京大学 鲲鹏昇腾科教创新孵化中心揭牌,引领高校科研生态新模式

极客天地

更经济实惠的SD-WAN组网

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

【问卷调研】HarmonyOS SDK开发者社区用户需求有奖调研

HarmonyOS SDK

GitLab 出现 500错误怎么解决?

极狐GitLab

gitlab

【JIT/极态云】技术文档--模型事件

武汉万云网络科技有限公司

比 Copilot 快两倍以上!在我的开源项目 AI Godot 桌宠中用通义灵码解决问题

阿里云云效

阿里云 云原生

Serverless 微服务治理神器: 阿里云 SAE 全链路灰度揭秘

阿里巴巴云原生

阿里云 Serverless 云原生

5分钟搞懂 Golang 数据库连接管理

俞凡

golang

如何使用PHP开发API接口?

科普小能手

php API php扩展 API接口 API 测试

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

声网

鸿蒙网络编程系列47-仓颉版UDP客户端

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

【JIT/极态云】技术文档--审批事件

武汉万云网络科技有限公司

MES系统助力中小企业数字化转型

万界星空科技

数字化转型 生产管理系统 mes 万界星空科技 中小企业数字化转型

覆盖30个省市自治区万余家医疗机构,原生鸿蒙助力打造智慧医疗便利体验

最新动态

2024年AI办公工具API:优化工作流程的智能解决方案

幂简集成

API

尝鲜智能体,今年双十一“快递100”用上混元大模型

极客天地

海外网络加速的技术手段有哪些?

Ogcloud

网络加速 企业组网 海外网络加速 企业网络加速 CDN网络加速

比 Copilot 快两倍以上!在我的开源项目 AI Godot 桌宠中用通义灵码解决问题

阿里巴巴云原生

阿里云 云原生

快递鸟物流跟踪API代码参数接入流程

快递鸟

快递物流

华为昇腾推理技术的优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章