10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

从云入端,CANN & Ascend C 助力大模型端侧部署|QCon 上海

  • 2025-09-09
    北京
  • 本文字数:1049 字

    阅读完需:约 3 分钟

大小:569.36K时长:03:14
从云入端,CANN & Ascend C 助力大模型端侧部署|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon 全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


华为 CANN 端侧生态技术专家章武已确认出席并发表题为从云入端,CANN & Ascend C 助力大模型端侧部署的主题分享。本次演讲将围绕当前端侧大模型日益增长需求,针对华为手机端侧大模型入端技术挑战(人因、内存、存储、功耗等),重点介绍相关创新技术实践和生态开放方案,同时展望未来端云协同技术下端侧大模型能力的演进。


章武,华为 CANN 端侧生态技术专家,深耕华为端侧 AI 计算领域 8 年,主要研究方向高性能计算、大模型推理、硬件建模、端侧 AI 生态。长期从事端侧 AI 生态技术构建,主导与 TOP 互联网 APP 做技术合作和业务上线。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景

  • 端侧大模型应用场景

  • 大模型入端的主要收益

2. 端侧大模型技术的主要挑战

  • 大模型应用的人因体验

  • 内存、存储、算力和功耗多重受限

3. 大模型入端技术创新实践

  • 算法创新(投机、以存代算、token 压缩复用)

  • 模型小型化(量化)

  • 推理加速优化

  • 内存极致压缩复用

4. 大模型能力开放

  • 大模型推理引擎

  • 自定义算子编程 Ascend C

5. 未来展望

  • 端云场景的协同


您认为,这样的技术在实践过程中有哪些痛点?

  • 大模型的端侧推理的内存优化和包体积优化

  • 端侧大模型场景功耗问题


演讲亮点

  • 大模型大模型推理引擎,Ascend C 自定义编程


听众收益

  • 大模型入端技术探索,端云协同,低 bit 量化


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-09 11:504

评论

发布
暂无评论

Perforce用户文章转载:每个游戏从业者都应该学学P4

龙智—DevSecOps解决方案

版本控制 游戏开发 版本管理 perforce 游戏厂商

PackML从会到不会——状态机(1)

陈的错题集

标准化 PackML

百度商业大规模高性能全息日志检索技术揭秘

百度Geek说

软件架构

云原生体系下 Serverless 弹性探索与实践

阿里巴巴云原生

阿里云 Serverless 云原生 弹性 SAE

服务API版本控制设计与实践

vivo互联网技术

API 服务器端开发 客户端开发 迭代

Elasticsearch云生态下的开源共生之路

大咖说

云计算 elasticsearch 开源

Python量化数据仓库搭建系列2:Python操作数据库

恒生LIGHT云社区

Python 量化

架构训练营 - 模块 5 作业

焦龙

架构训练营

KubeMeet 深圳站回顾:应对云原生边缘计算落地挑战

阿里巴巴云原生

阿里云 Kubernetes 云原生 线下活动

大厂算法面试之leetcode精讲10.递归&分治

全栈潇晨

LeetCode 算法面试

内存数据库的分布式架构提升之道

鲸品堂

数据库

测试不趁早,“持续测试”搞不好

飞算JavaAI开发助手

DevOps 敏捷开发 自动化测试

微博评论架构分析

小麦🌾

架构实战营

架构实战营模块五作业

孙志强

架构实战营

dart系列之:时间你慢点走,我要在dart中抓住你

程序那些事

flutter 架构 dart 程序那些事 11月日更

移动计算云分布式数据缓存服务,实现快速可靠的跨区域多活复制

华为云开发者联盟

可用性 云数据缓存 跨区域多活 无冲突复制数据类型CRDT

阿里云 Serverless 助力企业全面拥抱云原生

阿里巴巴云原生

阿里云 Serverless 云原生 企业

react源码解析4.源码目录结构和调试

buchila11

React React Hooks

Linux学习方法《Linux一学就会》Centos8软件包的管理与安装

侠盗安全

Linux linux运维 运维工程师 云计算架构师

1 分钟 Serverless 极速抽盲盒,自己部署自己抽!

阿里巴巴云原生

阿里云 Serverless 云原生

react源码解析3.react源码架构

buchila11

源码 React React Hooks react源码

直播预告|数以智用——大数据应用探索与实践

智联卓聘

大数据 数据管理 线上沙龙

java开发之DOS命令学习及运行环境配置安装

@零度

java开发学习 DOS命令学习

数仓开发详细剖析

五分钟学大数据

11月日更

16张图解锁Spring的整体脉络

4ye

Java spring 程序员 后端 签约计划第二季

爱奇艺TFServing负载均衡问题研究及改进实践

爱奇艺技术产品团队

如何使用 Java 代码给图片增加倒影效果

汪子熙

Java API 图片处理 11月日更 Java图片

应对 Job 场景,Serverless 如何帮助企业便捷上云

阿里巴巴云原生

阿里云 Serverless 云原生 函数 Job

如何在P4中管理Unreal Engine 代码

龙智—DevSecOps解决方案

版本控制 游戏开发 版本管理 游戏引擎 虚幻引擎

并发编程中,你加的锁未必安全

华为云开发者联盟

线程 高并发 并发 线程安全

大厂算法面试之leetcode精讲9.位运算

全栈潇晨

算法 LeetCode

从云入端,CANN & Ascend C 助力大模型端侧部署|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章